数据仓库与建模基础理论

易霭珞

已于 2023-06-08 14:12:13 修改

阅读量586

点赞数 1

分类专栏：大数据学习之路文章标签：大数据数据仓库

于 2023-03-13 18:55:41 首次发布

本文链接：https://blog.csdn.net/m0_52931616/article/details/129502340

版权

大数据学习之路专栏收录该内容

12 篇文章 2 订阅

订阅专栏

文章目录

数据仓库与建模基础理论

数据仓库与建模基础理论

数据仓库的基本概念

数据仓库是一个面向主题、集成的、非易失的且随时间变化的数据集合
主要用于组织积累的历史数据，并使用分析方法（OLAP、数据分析）进行分析整理，进而辅助决策，为管理者、企业系统提供数据支持、构建商业智能

数据仓库的特点

面向主题：为数据分析提供服务，根据主题将原始数据集合在一起
集成：原始数据来源于不同的数据源，要整合成最终数据，需要经过抽取、清洗、转换的过程
非易失：保存的数据是一系列的历史快照，不允许修改，只通过工具进行查询、分析
时变性：数据仓库定期接收、集成新的数据，从而反映数据的最新变化

数据仓库 VS 数据库

数据库面向事务设计，属于OLTP（在线事务处理）系统，主要操作是随机读写；在设计时尽量避免冗余，常采用范式规范来设计；

数据仓库面向主题设计，属于OLAP（在线分析处理）系统，主要操作是批量读写；关注数据整合，以及分析、处理性能；会有意引入冗余，采用反范式来设计；

	数据库	数据仓库
面向	事务	主题
数据	细节、业务	经过综合、清洗、转换过的数据
数据特点	当前的、最新的	历史的、跨时间维护
目的	日常操作	决策支持
设计模型	基于ER模型、面向应用	基于星形/雪花模型，面向主题
操作	随机读/写操作	大多数情况下为批量读操作
数据规模	GB—>TB	>=TB

数据仓库的两种形式

传统数据仓库

由关系数据库组成MPP（大规模并行处理）集群，由单机关系型数据库改造的，完全兼容原有的SQL语法，业务迁移方便，继承了单机关系型数据库的优异性能。

对于扩展性问题，传统数据仓库是从单机架构发展过来的，每一个节点还是一个数据库，它们是独立进行运算的，如果要和其他数据库交换数据，则需要通过高速网络连接来交换数据，从而限制了节点的上限。

对于热点问题，假设一张大表有1000w行数据，存储的时候分成了10份，一份有100w行，如果前100w行数据是热点数据，又恰好都被存储到某个节点中，那么这个节点承受的压力是其他节点的数倍，这样的话这个节点可能会出现宕机或者超时的情况，一旦它成为了集群的瓶颈，整个系统的性能就会降低。当我们的技巧的规模越大，节点就会越多，节点出现问题的频率也会越高，整个集群的可用性就会降低。