1、取分区数据时,如果后续需要回刷历史数据,且可以一次取多天的数据,则可以写成
where dt >= ‘start_date’ and dt < ‘end_date’,这样可以根据传入的开始、结束时间取多天的数据,如果只需取一天的数据,则
where dt = ‘start_date’
2、做join或left join时一定要检查左表的关联字段是否有null值,如果有则要进行nvl(col_1,concat(‘hive’,rand()))处理,如果右表关联字段有重复值则要去重,否则数据会发散
3、如果两段逻辑相似,只是取数的where条件不同,则可以将两段逻辑合并,用case when做区分,也就是把where提前
4、对数的时候,如果有多段union all或其他多段逻辑,则可以采用局部对数的方法,每次只对一个union all指标,而不必把整个脚本都跑完,太浪费时间
5、在原逻辑上加字段的时候,一定要注意是否需要加多处,比如with tmp和group by的逻辑,肯定不只加一处,加完了explain一下
6、写脚本的时候一步一个脚印,把每个逻辑写好,不要求快,不要总想着先写后面再确认,因为事实往往是写完就忘了,到时候出问题了要花更多时间来排查问题,比如维值是否相同、join字段是否有重复值
7、做case when的时间一定要考虑null情况,不然会有问题
8、加字段的时候先看下表里面有没有这个字段,一是看字段名称,二是看注释,因为每个人的字段命名不一样,直接按字段名匹配查找不一定能找到,但是注释差别不是很大,所以要全面来确认
9、注意dmd清单表中存放的是全量的明细数据,不可以随便加时间限制,如果只取某个时间段的数据,限制条件可以加在dms中,如果dmd中加时间限制,回刷历史数据会有问题
10、如果在脚本中添加了新代码,且用到了新的表,则一定要记得加任务依赖,否则取不到依赖表的数据