目录标题
1、数据仓库
数据仓库Data Warehouse 简称DH,数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持
数据仓库不产生数据 – 数据来自数据库、日志、爬虫等
数据仓库不消费数据 – 分析结果给外部的报表平台等展示
常见的数据源:
- RDBS关系型数据库-业务数据
- log file --日志文件
- 爬虫
- 其他数据
1.1 数仓为何而来?
答:为了分析数据而来
每天有大量的用户信息产生,如何存储?
要求:处理速度要快,且安全
存放在关系型数据库中—因为事务支持
事务的四大特性:原子性、一致性、隔离性、持久性
but随着业务越来越多,运营如何决策?—需要数据分析
基于业务数据开展数据分析,基于分析结果给决策提供支持
在哪里数据分析?
虽然可以直接在数据库分析,但没必要,因为:
- 数据分析也是对数据进行读取操作,会让读取压力倍增
- 数据库OLTP仅存储近期的数据
- 数据可能分析在不同数据库中,字段类型属性不统一
需要把数据拿过来搭建专门分析的地方—数据仓库出现了
即能进行分析,也可以保证数据不受影响
OLTP面向事务的