数据仓库和数据库
数据仓库是面向主题的、集成的、稳定的,反映历史变化数据集合,用于分析场景,支持管理决策过程等。
- 面向主题:在较高层次对企业的数据进行综合归并而进行的抽象概念。数据仓库都是基于某个明确主题,仅需要与该主题相关的数据,其他的无关细节数据将被排除掉
- 集成的:从不同的数据源采集数据到同一个数据源,此过程会有一些ETL操作;并保持数据的一致性、完整性、准确性、有效性
- 反映历史变化:关键数据隐式或显式的基于时间变化
- 相对稳定:数据仓库的数据一般只做添加不做更新:数据装入以后一般只进行查询操作,没有传统数据库的增删改操作
数据库是通过一定数据结构对数据进行组织、存储和管理,一般用于OLTP应用场景,目的是具有较高的独立性、扩展性、较少的冗余、高性能和高效率。
数据仓库和数据库的区别:
| 数据仓库 | 数据库 |
数据范围 | 企业全部数据、历史数据、变化数据 | 当前数据 |
数据变化 | 一般只添加,很少修改、不删除 | 增删改查等 |
应用场景 | 决策处理、数据画像、机器学习、人工智能 | 业务处理 |
建模理论 | ER建模、维度建模、混合建模 | ER建模,一般遵循3NF |
数据处理 | 非频繁、数据量大、高吞吐、有时延 | 频繁、量少次多、高并发、低延迟 |