数据增量更新定义_数据仓库

最新推荐文章于 2024-08-29 22:33:34 发布

weixin_39755824

最新推荐文章于 2024-08-29 22:33:34 发布

阅读量1.9k

点赞数

文章标签：数据增量更新定义

本文探讨了数据仓库的分层理念，强调适合企业的解决方案，而非绝对规范。数据仓库是集成、稳定并反映历史变化的数据集合，用于支持管理决策。数据仓库的核心包括ETL、模型建立、数据治理等，其分层旨在解决数据流向、权限控制等问题。文中提到了数据仓库的三个关键特征：面向主题的集成、相对稳定性和反映历史变化，特别讨论了增量更新的全量更新和增量变更策略，如拉链模型的优缺点，并指出数仓建设需关注数据表规范、信息描述、建模体系和数据关系管理。

摘要由CSDN通过智能技术生成

数据仓库分层没有绝对的规范，适合的就是最好的，特别是企业已经有一个初版的数仓的时候，需要做好改造成本和可理解性之间的平衡。

数据仓库是一套方法论，从规范定义、模型设计到数据服务，再到数据可管理、可追溯、可复用。

背景

在之前的文章

高威：浅谈数仓模型（维度建模）zhuanlan.zhihu.com

中，有读者比较关注数仓分层的意义和作用，以及如何建立一个比较完善且能落地的数仓体系，所以在这里单独开一栏主要介绍数仓的分层原理，和针对不同阶段公司或者业务过程中数仓搭建主要关注的点。

定义：

数据仓库，由数据仓库之父Bill Inmon 在1991 年出版的“Building the Data Warehouse”定义且被广泛接受的——面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。从定义上来看，数据仓库的关键词为面向主题、集成、稳定、反映历史变化、支持管理决策，而这些关键词的实现就体现在分层架构内。

说到数仓不可避免的和传统的数据库进行比对：

所以数仓是面向分析型的，主要集中在数据的ETL、数仓模型的建立、数据治理、数据质量的监控、数据资产的沉淀、数据指标体系的搭建，为了方便快速的达到数据获取和数据支撑的目的，同时规避了数据指标不统一造成的数据准确性不足的问题以及重复建设的冗余而建立的一套公司层面或者业务支撑层面的一套规范化数据流向的方案。