DataWarehouse
czmmiao
这个作者很懒,什么都没留下…
展开
-
数据仓库的粒度(原创)
概述粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。数据的粒度一直是一个设计问题。数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。粒度的大小需要数据仓库在设计时在数据量大小与查询的详细程度之间作出权衡。...2013-03-05 16:06:59 · 1589 阅读 · 0 评论 -
Type 3 Slowly Change Dimension(原创)
Type 3 ChangesIn most dimensional schemas, the bulk of changes to source data generate type 1 and type 2 changes. Occasionally, neither technique satisfies. A third type of change response is called ...2015-05-26 20:05:38 · 376 阅读 · 0 评论 -
The Hybrid Response(原创)
The Hybrid ResponseWhen requirements call for changed data to result in both type 1 and type 2 behavior, the solution is disarmingly simple: provide for both. This cannot be achieved with a single a...2015-05-26 19:05:56 · 132 阅读 · 0 评论 -
Type 2 Slowly Change Dimension with Timestamp(原创)
Time-Stamped DimensionsIf there is any uncertainty about requirements for historic data, the most common response to changes in source data is the type 2 slowly changing dimension.It is the safe choi...2015-05-04 03:24:25 · 246 阅读 · 0 评论 -
Slowly Changing Dimensions Type 1 and Type 2(原创)
Slowly Changing Dimensions The "Slowly Changing Dimension" problem is a common one particular to data warehousing. In a nutshell, this applies to cases where the attribute for a record varies ove...2015-04-12 03:32:17 · 200 阅读 · 0 评论 -
Degenerate Dimensions(原创)
We are often asked about degenerate dimensions in our modeling workshops. Degenerate dimensions cause confusion since they don’t look or feel like normal dimensions. It’s helpful to remember that ac...2015-04-11 19:15:37 · 176 阅读 · 0 评论 -
Junk Dimensions(原创)
Junk Dimension A junk dimension is a convenient grouping of typically low-cardinality flags and indicators. By creating an abstract dimension, these flags and indicators are removed from the fact ...2015-04-05 17:54:06 · 321 阅读 · 0 评论 -
Concept of Key in Data Warehouse
Keys and historyIn a star schema, each dimension table is given a surrogate key. This column is a unique identifier, created exclusively for the data warehouse. Surrogate keys are assigned and mainta...原创 2015-04-05 16:49:07 · 210 阅读 · 0 评论 -
oracle数据仓库设计指南
ODS(Operational Data Store)是数据仓库体系结构中的一个可选部分,ODS具备数据仓库的部分特征和OLTP系统的部分特征,它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。 一般在带有ODS的系统体系结构中,ODS都设计为如下几个作用: 1) 在业务系统和数据仓库之间形成一个隔离层 一般的数据仓库应用系统都具有非常复杂的数据来源,这些...原创 2015-04-04 23:47:21 · 808 阅读 · 0 评论 -
数据仓库的一些理解(原创)
概述数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题导向(Subject-Oriented)主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域。有别于一般O...2013-02-26 23:41:20 · 793 阅读 · 0 评论 -
ETL架构设计(原创)
集结区准备数据,通常也叫做数据管理,是指获取数据并将数据转化成信息,最终将这些信息提交到前端的查询界面。后台不提供查询服务,数据仓库方法论假设在后台数据访问是被严格禁止的,这是前台的唯一目的。 数据仓库的后台部分经常被称为:集结区(StagingArea)。数据集结主要是指写入磁盘,ETL的四个主要步骤都要有数据集结。下图为数据仓库组件架构图集结区的意义是将数据存储在物理集结区还是在内存中直...2013-03-25 17:32:39 · 1525 阅读 · 0 评论 -
ETL概述(原创)
ETL概述ETL,Extraction- Transformation-Loading的缩写,即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,它是构建数 据仓库的重要环节。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为 企业的决策提供分析依据。ETL是BI项目重要的一个环节。通过E...2013-03-25 10:00:27 · 770 阅读 · 0 评论 -
数据仓库中的维度(原创)
维度维度在数据仓库中主要对事实指标进行过滤和重新组织提供指导。可以将用户对事实的查询结果按照维度指标进行筛选,只允许与维度指标相关的数据返回给用户。维度一般具有如下特性:可以形成一个维度体系,具备访问和过滤事实的能力,能够提供相关的非标准实体,包括一个完整的维度体系编码、关键词以及相关的表示,可以映射到用户所需要信息的列。在物理数据仓库中是较小的表,可以对前台用户的应用程序进行数据填充,或...2013-03-10 14:40:15 · 1997 阅读 · 0 评论 -
浅谈数据建模(原创)
数据模型数据模型是指用实体、实体的属性、实体之间的关系对企业在运营活动中涉及到所有业务概念和业务活动进行统一的定义和描述。数据模型是业务人员和技术开发人员之间沟通的平台。这里先解释下两个概念实体:现实世界中存在的可以相互区分的事务或概念念称为实体。实体可以分为事物实体和概念实体。例如:一个学生、一个工人等是事物实体。一门课、一个班级等称为概念实体。实体的属性:每个实体都有自己的特征,利...2013-03-09 21:28:59 · 342 阅读 · 0 评论 -
Dimension Table Features(原创)
Rich Set of DimensionsDimensions provide context for facts. Without context, facts are impossible to interpret. For example, I might tell you, “Order dollars are $40,000.” This statement is of no us...2015-06-04 00:12:27 · 353 阅读 · 0 评论