互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(三)——数据仓库理论
数据仓库理论


DW定义
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支撑管理决策。
1.聚焦决策者的数据建模与分析,排除对决策无用的数据
2.集成异种数据源,数据一致性(关系数据库+一般文件+联机事务处理记录)
3.相对稳定:数据仓库的数据只添加罕更新保证数据稳定。通常需要三种数据访问:数据初始化装入、数据的添加和数据查询访问。
4.反映历史变化。操作型数据库主要关心当前某时间段内数据。而数仓数据包含历史信息,可通过发展历程和未来趋势做定量分析。


企业DW存储架构
数据源--ETL--数据存储与管理--服务--数据访问
{数据源:文档资料、业务数据系统、外部数据源
数据存储与管理:数据仓库的存储主要由元数据库及数据的存储两部分组成
数据访问:统计报表、数据挖掘、OLAP联机分析处理、即席查询}


EIF企业信息工厂:是一种数据仓库的构架
EIF包括集成转换层I&T、操作数据存储ODS、:企业级数据仓库DW、数据集市DM、探索仓库EW等部件。


事实表
维度建模的数据仓库中,事实表保存了大量业务度量数据的表。最有用的事实是数字类型、可加类型。
事实表以粒度化分:事务粒度事实表(细)、周期快照粒度事实表、累积快照粒度事实表(粗)。
事实表以用途化分:原子事实表、聚集/汇总事实表、合并事实表。


数据集市Data mart
数据仓库企业级,数据集市部门级。


ODS操作数据存储


元数据
可以看作数据仓库系统的数据字典
分类:技术元数据(Technical Metadata)、业务元数据(Business Metadata)


ETL
将业务系统的数据经抽取(Exact)清洗转换(Transform)之后加载(Load)到数据仓库的过程。目的是将企业分散零乱标准不一的数据整合到一起,为企业决策提供分析依据。


OLAP
online analytical processing联机分析处理
目的:满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。


OLTP
On-Line Transaction Processing联机事务处理系统(OLTP)
其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。


{OLTP即联机事务处理,就是我们经常说的关系数据库,意即记录即时的增、删、改、查,就是我们经常应用的东西,这是数据库的基础;OLAP即联机分析处理,是数据仓库的核心部心,所谓数据仓库是对于大量已经由oltp形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息;数据仓库是在数据库应用到一定程序之后而对历史数据的加工与分析;是处理两种不同用途的工具而已。}


OLAP相关概念


维:人们观察数据的特定角度,是考虑问题的一类属性,属性集合构成一个维(时间维、地理维)
维的层次:举例,时间维:年、季度、月、日
维的成员:维的取值。如2015/10/01
多维数组:维和变量的组合表示。如{时间,地区,产品,销售额}
数据单元:多维数组取值。


OLAP特性
快速性、可分析性、多维性、信息性


OLAP多维数据结构
超立方结构(Hyper cube,更易理解)、多立方结构(Multi cube,灵活性大)


OLAP多维数据分析
切片和切块(Slice and Dice)
钻取(Drill)
旋转/转轴(Rotate/Pivot)


OLAP多种实现方法
根据存储数据方式不同分为ROLAP/MOLAP/HOLAP
ROLAP:关系型数据库实现OLAP,占用空间小
MOLAP:基于多维数据组织的OLAP实现,性能非常好
HOLAP:基于混合组织的OLAP




多维数据库
将数据存放在一个n维数组中,不像关系数据库以记录形式存放


OLAP流行工具(略)



















阅读更多
个人分类: 互联网电商大数据
想对作者说点什么? 我来说一句

互联网电商大数据环境.

2018年04月15日 360KB 下载

没有更多推荐了,返回首页

不良信息举报

互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(三)——数据仓库理论

最多只允许输入30个字

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭