互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(三)——数据仓库理论

原创 2015年08月11日 15:00:41
数据仓库理论


DW定义
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支撑管理决策。
1.聚焦决策者的数据建模与分析,排除对决策无用的数据
2.集成异种数据源,数据一致性(关系数据库+一般文件+联机事务处理记录)
3.相对稳定:数据仓库的数据只添加罕更新保证数据稳定。通常需要三种数据访问:数据初始化装入、数据的添加和数据查询访问。
4.反映历史变化。操作型数据库主要关心当前某时间段内数据。而数仓数据包含历史信息,可通过发展历程和未来趋势做定量分析。


企业DW存储架构
数据源--ETL--数据存储与管理--服务--数据访问
{数据源:文档资料、业务数据系统、外部数据源
数据存储与管理:数据仓库的存储主要由元数据库及数据的存储两部分组成
数据访问:统计报表、数据挖掘、OLAP联机分析处理、即席查询}


EIF企业信息工厂:是一种数据仓库的构架
EIF包括集成转换层I&T、操作数据存储ODS、:企业级数据仓库DW、数据集市DM、探索仓库EW等部件。


事实表
维度建模的数据仓库中,事实表保存了大量业务度量数据的表。最有用的事实是数字类型、可加类型。
事实表以粒度化分:事务粒度事实表(细)、周期快照粒度事实表、累积快照粒度事实表(粗)。
事实表以用途化分:原子事实表、聚集/汇总事实表、合并事实表。


数据集市Data mart
数据仓库企业级,数据集市部门级。


ODS操作数据存储


元数据
可以看作数据仓库系统的数据字典
分类:技术元数据(Technical Metadata)、业务元数据(Business Metadata)


ETL
将业务系统的数据经抽取(Exact)清洗转换(Transform)之后加载(Load)到数据仓库的过程。目的是将企业分散零乱标准不一的数据整合到一起,为企业决策提供分析依据。


OLAP
online analytical processing联机分析处理
目的:满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。


OLTP
On-Line Transaction Processing联机事务处理系统(OLTP)
其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。


{OLTP即联机事务处理,就是我们经常说的关系数据库,意即记录即时的增、删、改、查,就是我们经常应用的东西,这是数据库的基础;OLAP即联机分析处理,是数据仓库的核心部心,所谓数据仓库是对于大量已经由oltp形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息;数据仓库是在数据库应用到一定程序之后而对历史数据的加工与分析;是处理两种不同用途的工具而已。}


OLAP相关概念


维:人们观察数据的特定角度,是考虑问题的一类属性,属性集合构成一个维(时间维、地理维)
维的层次:举例,时间维:年、季度、月、日
维的成员:维的取值。如2015/10/01
多维数组:维和变量的组合表示。如{时间,地区,产品,销售额}
数据单元:多维数组取值。


OLAP特性
快速性、可分析性、多维性、信息性


OLAP多维数据结构
超立方结构(Hyper cube,更易理解)、多立方结构(Multi cube,灵活性大)


OLAP多维数据分析
切片和切块(Slice and Dice)
钻取(Drill)
旋转/转轴(Rotate/Pivot)


OLAP多种实现方法
根据存储数据方式不同分为ROLAP/MOLAP/HOLAP
ROLAP:关系型数据库实现OLAP,占用空间小
MOLAP:基于多维数据组织的OLAP实现,性能非常好
HOLAP:基于混合组织的OLAP




多维数据库
将数据存放在一个n维数组中,不像关系数据库以记录形式存放


OLAP流行工具(略)



















基于实体分析的数据仓库构建方法

基本观点 每一种建模都代表着一种观察世界的角度;这种角度的差异很难说什么好坏对错之分。 关于数据 数据本质是信息,数据之所以有价值是因为其中包含着我们想要的信息,不包含信息的数据没有价值。 关于信息 ...
  • conggova
  • conggova
  • 2017年08月26日 17:22
  • 75

数据仓库---企业信息工厂(EIF)

企业信息工厂(Corporate Information Factory,简称EIF),是一种建立数据仓库的架构,企业信息工厂的创始人是数据仓库之父Inmon。 企业信息工厂主要包括集成转换层(I&...
  • s646575997
  • s646575997
  • 2016年05月25日 20:39
  • 623

互联网电商大数据架构图

  • china_demon
  • china_demon
  • 2016年07月11日 17:45
  • 749

互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(一)——简介入门

互联网电商大数据环境 ——数据分析实践培训精华笔记(一) 工作内容 项目:DW数据库建设/经分/客户精准营销/推荐系统需求/移动端数据分析 数据:流量数据/交易数据B2C/会员与活动数据/物流与配...
  • houxiaoqin
  • houxiaoqin
  • 2015年08月11日 09:56
  • 1196

架构设计成就EDW

确保EDW建设成功的因素:拥有明确的业务目标;高级管理层的支持;螺旋式的开发和发布过程;有用户对项目的一贯参与;对数据模型和ETL过程给予足够重视;能够将数据转换成信息和知识;易用性和高可用性等。 ...
  • nisjlvhudy
  • nisjlvhudy
  • 2012年09月20日 10:52
  • 2354

互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(三)——数据仓库理论

数据仓库理论 DW定义 数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支撑管理决策。 1.聚焦决策者的数据建模与分析,排除对决策无用的数据 2.集成异种数据...
  • houxiaoqin
  • houxiaoqin
  • 2015年08月11日 15:00
  • 537

数据仓库维度建模(针对多种业务的数据仓库总线结构)

数据仓库总线结构:多种不同的业务: 遵循一致性维度、一致性事实 reference:   http://blog.itpub.net/23716337/viewspace-1118...
  • u012075079
  • u012075079
  • 2016年08月08日 10:49
  • 204

互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(二)——BI构建

BI构建 BI应用架构 BI底层:数据源——ETL——BI数据仓库  BI服务:交互式信息板、报告并发布、即席分析、预先检测和警报、离线分析、MS Office插件、Web服务 BI应...
  • houxiaoqin
  • houxiaoqin
  • 2015年08月11日 13:37
  • 699

外接输入系统-类似一个通用的外挂

很多朋友在研究如何控制目标程序中的文本框等控件的值,偶然的机会我也需要做这么个东东,花了一个晚上研究终于搞定,呵呵,在这里与大家共享。 代码思路并不复杂,程序运行后用CTRL+G扑获目标窗体的句柄,然...
  • blow_jj
  • blow_jj
  • 2005年04月19日 17:16
  • 1073

关于数据仓库-Inmon-企业信息工厂(CIF)概览

  原创于2007年04月12日,2009年10月15日迁移至此。翻译总是一件很痛苦的事情,看着别人翻译的很烂,心里总是会暗暗骂上几句,当自己翻译的时候,才了解翻译的痛苦。。。关于DW2.0和CIF,...
  • baoqiangwang
  • baoqiangwang
  • 2009年10月15日 22:43
  • 2104
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(三)——数据仓库理论
举报原因:
原因补充:

(最多只允许输入30个字)