hive 调优
mingming20547
这个作者很懒,什么都没留下…
展开
-
HIVE 调优1
业务背景 用户轨迹工程的性能瓶颈一直是etract_track_info,其中耗时大户主要在于trackinfo与pm_info进行左关联的环节,trackinfo与pm_info两张表均为GB级别,左关联代码块如下: [SQL]纯文本查看复制代码 ? 1 2 3 from trackinfo a left outer join ...原创 2019-09-10 11:23:36 · 106 阅读 · 0 评论 -
HIVE 调优2
Hive中小表与大表关联(join)的性能分析 经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。 多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2个只有几条记录的表做关联查...原创 2019-09-10 11:31:15 · 90 阅读 · 0 评论