1. 数据仓库概念
数据仓库,Data Warehouse,简写为DW或DWH。
定义:面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理决策。
- 面向主题:在较高层次上将企业信息系统的数据综合归并进行分析利用的抽象的概念。每个主题基本上对应一个相应的分析领域
- 集成的:企业级数据,同时数据要保持一致性、完整性、有效性、精确性
- 稳定的:从某个时间段来看是保持不变的,没有更新操作、删除操作,以查询分析为主
- 变化的:反映历史变化
2. 数据仓库和数据库的区别
3. 不同专家对数据仓库的定位
Bill Inmon主张自上而下建设企业数据仓库,认为数据仓库是整体商业智能的一部分。一家企业只有一个数据仓库,数据集市的信息来源于数据仓库,在数据仓库中,信息存储符合第三范式,大致架构:
Palph Kimball主张自下而上地建立数据仓库,极力推崇建立数据集市,认为数据仓库是企业内所有数据集市的集合,信息总是被存储在多维模型当中,其思路:
4. 传统数仓和基于大数据的数仓差异点
传统数仓 | 基于大数据的数仓 | |
---|---|---|
应用场景 | 建设周期长,需求稳定,面向SDD、CRM、BI等系统,时效性要求不高 | 要求快速响应需求,同时需求灵活、多变,对实时性有不同程度的要求,除了面向DSS、BI等传统应用外,还要响应用户画像、个性化推荐、机器学习、数据分析灯各种复杂的应用场景 |
技术栈 | 基于成熟的商业数据集成平台,比如Teradata、Oracle、Informatica等,技术体系比较成熟完善,但相对比较封闭,对实施者技术要求也相对专业且单一,多应用于银行、保险、电信等有钱行业。 | 一般基于非商业、开源的技术,常见的是基于hadoop生态构建,涉及技术较广泛、复杂,同时相对于商业产品,稳定性、服务支撑较弱,需要自己维护更多的技术框架。 |
5. 技术栈
6. 其他一些知识
6.1 基于大数据的数据仓库在互联网行业主要的应用
6.2 未来更广泛的应用场景
- 数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶
- 数据化运营、精准运营
- 广告精准、智能投放
参考资料: