- 博客(1)
- 收藏
- 关注
原创 Hive中小表与大表关联(join)的性能分析
Hive中小表与大表关联(join)的性能分析经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。 多小的表算小表?如果所谓的小表在内存中放不下怎么办?我用2个只有几条记录的表做关联查询,这应该算是小表了,在查看reduce的执行日志时依然是有写磁盘的操作的。实际上reduce在接收全部map的...
2020-12-08 11:06:05
1299
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人