关于数据事实表汇总的模拟实现——原理

最新推荐文章于 2022-09-08 13:01:57 发布

python与大数据分析

最新推荐文章于 2022-09-08 13:01:57 发布

阅读量1.8k

点赞数

分类专栏：数据仓库文章标签：任务数据仓库存储 table insert 工作

本文链接：https://blog.csdn.net/baoqiangwang/article/details/4674126

版权

55 篇文章 2 订阅

订阅专栏

原创于2007年01月08日，2009年10月15日迁移至此。

在数据仓库中通常会存储双重粒度级别的数据来满足不同的需要，轻度综合数据和原始数据，在原始数据层面上可以访问细节数据，而在分析层面则访问轻度综合数据。

原始数据因为存储了基本上原封不动的数据，导致系统存储压力增大，同时也造成查询使系统性能的下降；而轻度综合数据由于数据进行压缩更为简洁，通常情况下对数据仓库的访问 95%以上都是通过轻度综合数据访问来进行的。

数据增量聚合的实现和增量抽取类似，都是尽量以时间戳的方式，尽量减少每次事务的开销。

增量聚合

下面开始对基于时间戳的数据增量聚合进行系统设计：

1、首先需要定义一张数据字典表，定义需要进行处理的任务，其中主要包括任务名称，任务描述，本次聚合开始时间、结束时间、当前时间、执行的系统时间，状态，最大时限等等。