Hive常用的调优方法
前言:Hive调优是日常工作中比较常见的问题,本文简要总结一下常用的调优方法。一、代码层面的优化1.去重两种方式:distinct和group by。推荐使用group by来对数据去重。distinct会将相同的key shuffle到一个reduce task中处理,group by 会启用多个reduce task来对数据进行分组去重。2. 在做具体业务时,尽量明确具体的字段内容,避免使用select * 。3.在使用join时,可以先过滤表中的数据之后再进行join。二、小文件过






