1.fetch(hive可以避免MapRedice)对于hive可以简单地读取employee对应的储存目录下的文件,然后输出查询结果到控制台,修改hive.fetch.task.conversion的参数为more即可
2.本地模式 设置数据出入量,设置local mr的最大输入文件个数,当输入文件滆湖小于这个值时采用local mr的方式,默认为4
3.表的优化
1.小表join大表
将key相对分散,并且数据量小的表join的左边,这个可以有效减少内存溢出错误发生的几率,在进一步可以使用group让小的维度表(1000条以下的记录条数)先进内存,在map端完成reduce
mapjoin(map端执行join)
启动方式一:(自动判断)
set.hive.auto.convert.join=true;
hive.mapjoin.smalltable.filesize 默认值是25mb
小表小于25mb自动启动mapjoin
启动方式二:
hive调优方式
最新推荐文章于 2024-05-15 23:24:14 发布