数据仓库
文章平均质量分 54
哈维先生
这个作者很懒,什么都没留下…
展开
-
数据仓库的粒度设计方法
设计思路:在选择适当粒度级别的过程中需要进行的权衡将围绕管理大量的数据和存储尽可能高粒度级别上的数据来进行,避免因细节数据量太大而导致的数据无法使用的问题。此外,如果有真正非常大量的数据,就要考虑将数据中不活跃的部分移送到溢出存储器上。确定适当的粒度级别要做的第一件事情就是进行一次合理的推测,并通过一定量的反复分析来改进这个推测。对于轻度综合的数据,为了确定合适的粒度级别,唯一可行的方法就是将原创 2014-01-15 08:43:04 · 505 阅读 · 0 评论 -
数据仓库体系架构
简介数据仓库架构,是IT架构的一个分支,随着数据在企业的核心作用的增强,数据仓库的架构日益重要。数据仓库架构由于其技术选择非常广泛,看上去复杂,不过背后有一套比较稳定的思路,这也是数据仓库架构设计的一个要点,稳定中蕴含变化,变化中蕴含稳定。总体来说,数据仓库架构分成两大块,一是硬件架构,二是软件架构。硬软架构又可以分成封闭式和开放式。封闭式硬件架构代表厂商有teradata原创 2014-01-15 08:34:10 · 2371 阅读 · 1 评论 -
数据仓库建模方法
关系模型多维模型Yahoo数据仓库建模介绍Yahoo数据仓库建模基本上采用维度建模的思想,他们强调一致的维度在保持数据仓库模型的一致性上的作用。他们会花一定的时间去识别每个新进入仓库的数据表,并了解它的业务规则和数据属性,由数据架构师完成对数据整合的设计工作。Yahoo也建立一些稀疏的宽表,它的基于每个日志访问记录表的宽表就有原创 2014-01-15 14:22:58 · 1163 阅读 · 0 评论 -
数据仓库的粒度
概述粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。数据的粒度一直是一个设计问题。数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。粒度的大小需要数据仓库在设计时在数据量大小与查询的详细程度之间作出权衡。转载 2014-02-27 08:12:25 · 991 阅读 · 0 评论 -
浅谈数据建模
数据模型数据模型是指用实体、实体的属性、实体之间的关系对企业在运营活动中涉及到所有业务概念和业务活动进行统一的定义和描述。数据模型是业务人员和技术开发人员之间沟通的平台。这里先解释下两个概念实体:现实世界中存在的可以相互区分的事务或概念念称为实体。实体可以分为事物实体和概念实体。例如:一个学生、一个工人等是事物实体。一门课、一个班级等称为概念实体。实体的属性:每个实转载 2014-02-27 09:27:04 · 825 阅读 · 0 评论 -
Hive中实现增量更新
现在有一个学生表,其中包括有学生的id,年龄和名称。如下图所示:hive> select * from student;OK3 23 zheng 201401021 20 qiu 201401024 32 yang 201401025 24 qian 201401022原创 2014-03-08 07:46:44 · 3089 阅读 · 1 评论