经验总结6—数据发散


1、取分区数据时,如果后续需要回刷历史数据,且可以一次取多天的数据,则可以写成
where dt >= ‘start_date’ and dt < ‘end_date’,这样可以根据传入的开始、结束时间取多天的数据,如果只需取一天的数据,则
where dt = ‘start_date’

2、做join或left join时一定要检查左表的关联字段是否有null值,如果有则要进行nvl(col_1,concat(‘hive’,rand()))处理,如果右表关联字段有重复值则要去重,否则数据会发散

3、如果两段逻辑相似,只是取数的where条件不同,则可以将两段逻辑合并,用case when做区分,也就是把where提前

4、对数的时候,如果有多段union all或其他多段逻辑,则可以采用局部对数的方法,每次只对一个union all指标,而不必把整个脚本都跑完,太浪费时间

5、在原逻辑上加字段的时候,一定要注意是否需要加多处,比如with tmp和group by的逻辑,肯定不只加一处,加完了explain一下

6、写脚本的时候一步一个脚印,把每个逻辑写好,不要求快,不要总想着先写后面再确认,因为事实往往是写完就忘了,到时候出问题了要花更多时间来排查问题,比如维值是否相同、join字段是否有重复值

7、做case when的时间一定要考虑null情况,不然会有问题

8、加字段的时候先看下表里面有没有这个字段,一是看字段名称,二是看注释,因为每个人的字段命名不一样,直接按字段名匹配查找不一定能找到,但是注释差别不是很大,所以要全面来确认

9、注意dmd清单表中存放的是全量的明细数据,不可以随便加时间限制,如果只取某个时间段的数据,限制条件可以加在dms中,如果dmd中加时间限制,回刷历史数据会有问题

10、如果在脚本中添加了新代码,且用到了新的表,则一定要记得加任务依赖,否则取不到依赖表的数据

  • 4
    点赞
  • 64
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值