经验总结6—数据发散

最新推荐文章于 2023-08-22 11:13:33 发布

剁椒鱼不要头

最新推荐文章于 2023-08-22 11:13:33 发布

阅读量4.4k

点赞数 4

分类专栏：经验总结文章标签： hive 大数据经验分享

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mcajax/article/details/113833084

版权

经验总结专栏收录该内容

7 篇文章 2 订阅

订阅专栏

1、取分区数据时，如果后续需要回刷历史数据，且可以一次取多天的数据，则可以写成
where dt >= ‘start_date’ and dt < ‘end_date’，这样可以根据传入的开始、结束时间取多天的数据，如果只需取一天的数据，则
where dt = ‘start_date’

2、做join或left join时一定要检查左表的关联字段是否有null值，如果有则要进行nvl(col_1,concat(‘hive’,rand()))处理，如果右表关联字段有重复值则要去重，否则数据会发散

3、如果两段逻辑相似，只是取数的where条件不同，则可以将两段逻辑合并，用case when做区分，也就是把where提前

4、对数的时候，如果有多段union all或其他多段逻辑，则可以采用局部对数的方法，每次只对一个union all指标，而不必把整个脚本都跑完，太浪费时间

5、在原逻辑上加字段的时候，一定要注意是否需要加多处，比如with tmp和group by的逻辑，肯定不只加一处，加完了explain一下

6、写脚本的时候一步一个脚印，把每个逻辑写好，不要求快，不要总想着先写后面再确认，因为事实往往是写完就忘了，到时候出问题了要花更多时间来排查问题，比如维值是否相同、join字段是否有重复值

7、做case when的时间一定要考虑null情况，不然会有问题

8、加字段的时候先看下表里面有没有这个字段，一是看字段名称，二是看注释，因为每个人的字段命名不一样，直接按字段名匹配查找不一定能找到，但是注释差别不是很大，所以要全面来确认

9、注意dmd清单表中存放的是全量的明细数据，不可以随便加时间限制，如果只取某个时间段的数据，限制条件可以加在dms中，如果dmd中加时间限制，回刷历史数据会有问题

10、如果在脚本中添加了新代码，且用到了新的表，则一定要记得加任务依赖，否则取不到依赖表的数据

剁椒鱼不要头

关注

4
点赞
踩
64

收藏

觉得还不错? 一键收藏
0
评论
经验总结6—数据发散

1、取分区数据时，如果后续需要回刷历史数据，且可以一次取多天的数据，则可以写成where dt >= ‘start_date’ and dt < ‘end_date’，这样可以根据传入的开始、结束时间取多天的数据，如果只需取一天的数据，则where dt = ‘start_date’2、做join或left join时一定要检查左表的关联字段是否有null值，如果有则要进行nvl(col_1,concat(‘hive’,rand()))处理，如果右表关联字段有重复值则要去重，否则数据会发.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。