数仓的难点在于如何保障数据的一致性，正确性，时效性，性价比的平衡统一

最新推荐文章于 2024-01-09 01:19:29 发布

科学的N次方

最新推荐文章于 2024-01-09 01:19:29 发布

阅读量3.1k

点赞数

分类专栏：数据仓库技术体系文章标签：数据仓库 big data 大数据

本文链接：https://blog.csdn.net/chenshijie2011/article/details/121186284

版权

数据仓库技术体系专栏收录该内容

135 篇文章 50 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

数仓工作的核心难题在于如何在保证数据一致性、正确性和时效性的同时，实现性价比的最佳平衡。离线数仓在一致性与正确性上有较好保障，但时效性受限；实时数仓则在时效性上占优，但在一致性和正确性方面面临挑战。随着流批一体数据仓库的发展，寻找解决方案成为当前关注的焦点。

摘要由CSDN通过智能技术生成

从业八年来，一直在做数仓相关工作，慢慢的发现数仓的难点在于什么？有人说是模型的构建，比如明细层DWD是按照业务过程来构建事实表，还是按照主题来构建事实表，还有人说是指标的定义，如果划分原子指标，派生指标。其实，我个人觉得这些都是过程，站在最终的结果导向上来看，数仓的痛点就在于如何保障数据的一致性，正确性和时效性的统一，目前看来前路应该是流批一体。
单就目前还是流批分离的情况下，离线数仓在一致性和正确性上基本没有太大的难点，但是在时效性上，却存在明显的短板。因为全过程的数据一致性，基本上在无论是mpp架构的传统数仓还是基于Hadoop的离线数仓，其业务逻辑的语义，基本可以按照定义好的业务逻辑进行，可以按照标准的建模规范实现一致性。正确性上面，无论是采集阶段的数据清洗，还是后面的数据加工，数据校验，还有数据质量DQC，都可以借助开发经验，或者成熟的数据平台实现。但是时效性，因为技术架构的局限性，基于调度平台的瓶颈，最小粒度做到小时，已经显得有些笨重了，尤其是小文件的快速增长，所以在离线数仓上小时任务是一个痛苦的事情。
实时数仓还有的解决了时效性的问题，但是在一致性和正确性上面，目前却没有太多的办法，因为目前基于流的计算都是跟着实时需求走的，单