- 博客(1)
- 资源 (3)
- 收藏
- 关注
原创 Hive 的性能调优总结
一、优化的常用手段了解数据分布、解决数据倾斜问题减少job数设置合理的map reduce的task数,能有效提升性能。数据量较大的情况下,慎用count(distinct)。对小文件进行合并,是行至有效的提高调度效率的方法。二、 Hive的数据类型方面的优化优化原则 按照一定规则分区(例如根据日期)。通过分区,查询的时候指定分区,会大大减少在无用数据上的扫描, 同时也非常方便数据
2016-06-03 16:10:03 1768
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人