超级维度表处理（亿行数据级别）

最新推荐文章于 2023-12-20 14:01:55 发布

weixin_30915951

最新推荐文章于 2023-12-20 14:01:55 发布

阅读量119

点赞数

原文链接：http://www.cnblogs.com/lijun4017/archive/2010/09/08/1821546.html

版权

最近在优化公司的数据仓库项目中ETL部分，发现有一处明显可以改进的地方，发出来和大家分享一下。

在数据仓库中一个一个超级大维度表（1亿左右的记录），更新这个维度表的时候，采取的策略是最简单的1类渐变维度，即存在则更新，不存在则插入。

原先的方式是在ETL过程中先查找这个大表本身，如果存在就打上update标记，不存在就打上insert标记，最后通过分支来分别插入和更新数据记录。每次执行这个job的时候，都要耗去相当多的时间，以前也没有想过去优化。

研究了一下，这个维度表中含有创建时间和最近更新时间这两个字段，发现我只要通过判断这两个时间是否在同一天就可以判断是该插入还是该更新（这里说明一下，我们的数据仓库数据一天更新一次，增量更新的是前一天数据），这样就省去了大量的查找表操作，要知道到这么大一个表里面去频繁做lookup是非常低效的。

action，修改了程序，发现该job执行效率提升了60%，oh yeah。

这里前提是维度表中有创建时间和最近更新时间这两个字段，其实如果没有最近更新时间也是可以做到的，那么就需要另外存放一个值，每天跑这个job的时候，把这个值更新为数据所属的日期，那么这个日期就可以当成上面的最近更新时间来用。

转载于:https://www.cnblogs.com/lijun4017/archive/2010/09/08/1821546.html

weixin_30915951

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
超级维度表处理（亿行数据级别）

最近在优化公司的数据仓库项目中ETL部分，发现有一处明显可以改进的地方，发出来和大家分享一下。在数据仓库中一个一个超级大维度表（1亿左右的记录），更新这个维度表的时候，采取的策略是最简单的1类渐变维度，即存在则更新，不存在则插入。原先的方式是在ETL过程中先查找这个大表本身，如果存在就打上update标记，不存在就打上insert标记，最后通过分支来分别插入和更新数据记录。每次...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。