记录Hive SQL的坑

场景:最近在实现一个scheduled task,其中用到一个sql查询相关数据,查询逻辑只是简单将A和B left join,但是在prob环境运行超级久都成功不了。
分析:从日志看以为是输出的数据量太大,资源紧张导致运行时间太久,后来发现是因为在查询A时,对其中的date字段筛选使用的是date = select max(date) from A,起初这样写因为A的生产时间不确定,为了保证自己任务定时能跑并且数据不为空,但是A是一个超级大的表,查询 date = select max(date) from A就很吃力
结论:慎用 select max(date) from A 这种,除非确定不会占用很多查询资源,可以退而求其次,使用CURRENT_DATE - INTERVAL ‘2’ day代替CURRENT_DATE - INTERVAL ‘1’ day

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值