数仓规范
1 定义
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。
技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。
商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述包含的数据、查询、报表;
元数据为访问数据仓库提供了一个信息目录(informationdirectory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。
数据集市是从数据仓库中独立出来的一部分数据,针对用户特定需求得出的
信息发布系统,把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是对付多用户访问的最有效方法
商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。
联机分析处理OLAP是一种软件技术,它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。它具有FASMI(Fast Analysis of Shared Multidimensional Information),即共享多维信息的快速分析的特征。其中F是快速性(Fast),指系统能在数秒内对用户的多数分析要求做出反应;A是可分析性(Analysis),指用户无需编程就可以定义新的专门计算,将其作为分析的一部 分,并以用户所希望的方式给出报告;M是多维性(Multi—dimensional),指提供对数据分析的多维视图和分析;I是信息性(Information),指能及时获得信息,并且管理大容量信息。
联机事务处理(OLTP)是指利用计算机网络,将分布于不同地理位置的业务处理计算机设备或网络与业务管理中心网络连接,以便于在任何一个网络节点上都可以进行统一、实时的业务处理活动或客户服务。
维度建模是一种将数据结构化的逻辑设计方法,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的设计技术。维度建模是面向分析,为了提高查询性能可以增加数据冗余,反规范化的设计技术。
事实表是数据仓库结构中的中央表,它包含联系事实与维度表的数字度量值和键。事实数据表包含描述业务(例如产品销售)内特定事件的数据。
维度表是维度属性的集合。是分析问题的一个窗口。是人们观察数据的特定角度,是考虑问题时的一类属性,属性的集合构成一个维。
粒度是指保存数据的细化或综合程度的级别。根据业务处理流程来确定粒度,粒度影响数据仓库中的数据量大小。粒度可以分为两种形式:1.按时间段综合数据的粒度,2.按采样率高低划分的样本数据库
2 操作性系统和DW/BI系统
信息是企业最核心的财产之一。信息总是用于以下两个目的,保存操作记录,和通过分析做出决策。简单来说,操作性系统(operational system)是用来存放数据的地方,DW/BI系统是取出数据的地方。
操作性系统可以比喻为推动企业运作的车轮。操作性系统执行企业的商务流程,反复进行类似的操作,如下订单,注册新用户,监控操作行为的转台,记录客户抱怨等。企业会优化操作性系统使之能够更快的处理事务。操作性系统通常不保存历史状态,而是更新数据以反映当前的状态。
另一方面,DW/BI系统则让企业的车轮转向效益评估。DW/BI系统统计订单数,并和上一周的订单作对比,寻找客户注册的原因和导致客户抱怨的因素。DW/BI系统关注操作过程是否正确。DW/BI系统不会只关注某一个事务,而是通过分析大量事务为问题寻求答案。因此,DW/BI系统会不断被优化以实现海量数据的高性能的查询。对于更复杂的需求,DW/BI系统用户还往往会要求保留历史数据,从而准确的评估企业效益随时间的变化。
3 DW/BI系统的目标
1 DW/BI系统应当使信息更容易获取。DW/BI系统的内容必须易于理解。数据必须对业务人员直观明了,而不仅是对于开发人员。数据结构和标签应当和业务人员的思考逻辑、用词一致。业务人员需要将熟悉数据用无数种方式分拆或是合并。BI工具和应用程序应当能通过简单易用的方式访问数据。BI系统还应当在最短的时间内返回用户查询结果。这可以总结为:简单,快速。
2 DW/BI系统呈现的数据必须一致。DW/BI系统中的数据必须可靠。应当谨慎的组合来自不同源头的数据,清洗,校验质量,并且只有在满足用户使用的情况下释放。一致性也要求跨多个数据源的情况下,DW/BI系统的标签和定义具有相同的含义。如果两个度量具有相同的名字,那么他们就表示完全相同的事物。反过来讲,如果如果两个度量表示不同的事物,他们应当打上不同的标签。
3 DW/BI系统必须能够应对变化。用户需求,业务条件,数据,和技术都面临着随时变化的可能。设计DW