数据研发学习笔记01：数据仓库

最新推荐文章于 2021-10-27 09:39:10 发布

Lynn Wen

最新推荐文章于 2021-10-27 09:39:10 发布

阅读量476

点赞数

分类专栏：数据研发学习笔记文章标签：数据仓库大数据人工智能数据分析数据库

本文链接：https://blog.csdn.net/weixin_41961559/article/details/106068191

版权

本文主要围绕以下问题展开相应的数据研发相关知识的梳理与总结：

数据仓库的作用和价值，与传统数据库的区别。
什么是OLAP，什么是OLTP，之间的区别是什么？
范式建模与星型模型的区别是什么？为什么在数据仓库领域不采用范式建模？
Google DataFlow模型是什么？有什么特点？用于解决什么问题？
实时数仓和离线数仓的区别是什么？现在业内比较流行的实时数仓有哪些？他们之间的区别是什么？（【数仓】数据仓库的建设（二））

1 数据仓库

1.1 数据仓库由来

公司的业务系统很多，业务系统的历史数据不方便查询。不同的业务系统往往管理部门不同，地域不同。能不能将所有这些数据集中起来，再淘淘有没有有意义的业务规律。数据仓库数据库往往很大，因为公司所有的数据集中得越多，越能淘到有价值的发现。

数据仓库产生的原因，事物处理环境不适宜决策支持系统（Decision Support System，DSS）：
在这里插入图片描述
操作型数据库是为已知和负载设计的，多支持事物的并发处理，需要并发控制和恢复机制，以确保一致性和事物的鲁棒性，数据仓库查询通常是复杂的，涉及大量的数据汇总级的计算，可能需要特殊的基于多维视图的数据组织、存取方法和实现方法，在操作库上处理OLAP查询，可能会大大降低操作任务的性能。

1.2 数据仓库定义

数据仓库（Data Warehouse）就是一个用以更好地支持企业或组织的决策分析处理的、面向主题的、集成的、不可更新的、随时间不断变化的数据集合，即为企业所有级别的决策制定过程提供所有类型数据支持的战略集合。

它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。即数据仓库主要用于数据挖掘和数据分析，辅助领导做决策。
在这里插入图片描述

1.3 数据仓库特点

（1）集成性
　　数据仓库中存储的数据是来源于多个数据源，原始数据在不同数据源中的存储方式各不相同。要整合成为最终的数据集合，需要从数据源经过一系列抽取、清洗、转换的过程。

（2）稳定性
　　数据仓库中保存的数据是历史记录，不允许被修改。用户只能通过分析工具进行查询和分析。

（3）动态性
　　数据仓库数据会随时间变化而定期更新，不可更新是针对应用而言，即用户分析处理时不更新数据。

（4）主题性
　　传统数据库对应项目不同，数据仓库根据需求，将不同数据源的数据整合，所有数据都围绕某一主题。比如“分析某个地区人口的学历”、“企业的注册资本”这样类似地主题。

1.4 构建数据仓库

构建数据仓库的过程是将不同数据源的数据整合起来，通过对数据进行清洗，规范化数据；根据需求围绕一个主题进行构建；并且构建好的数据仓库不用于UPDATE，仅用于查询；构建好的数据仓库也方便获取数据，节省了一定的资源。
在这里插入图片描述

1.5 数据库和数据仓库的区别

数据库存储的是原始数据，没经过任何加工；而数据仓库是为了满足数据分析需要设计的，对源数据进行了ETL(Extract,Transform,Load)过程，数据抽取工作分抽取、清洗、转换、装载。

原始数据/操作型数据	导出数据/分析型数据
面向应用	面向主题
详细的	综合的或提炼的
为日常工作服务	为管理者服务
近期数据、在访问瞬间是准确的	历史数据、快照
可更新	不更新（修改）
重复运行	启发式运行
处理需求预先可知	处理需求预先不知道
非冗余性	存在冗余
对性能要求高	对性能要求宽松
一次访问一个单元	一次访问一个集合
静态结构：可变内容	结构灵活
访问频繁	访问较少

2 OLTP与OLAP

从数据操作到数据分析。

联机事务处理（Online Transaction Processing，QLTP）：支持联机事务处理数据库的关注点在于多用户并发环境下的数据一致性和完整性。强调数据的收集、数据库的更新操作，即向数据库中添加信息。
联机分析处理（Online Analysitical Process