Hdoop配置文件

最新推荐文章于 2021-11-02 00:00:26 发布

piepis

最新推荐文章于 2021-11-02 00:00:26 发布

阅读量125

点赞数

分类专栏： HiveSQL学习文章标签： hive cfg

本文链接：https://blog.csdn.net/bug4pie/article/details/108757840

版权

9 篇文章 0 订阅

订阅专栏

作业配置

mapred.job.name	作业名
mapred.job.priority	作业优先级
mapred.job.map.capacity	最多同时运行map任务数
mapred.job.reduce.capacity	最多同时运行reduce任务数
hadoop.job.ugi	作业执行权限
mapred.map.tasks	map任务个数
mapred.reduce.tasks	reduce任务个数
mapred.job.groups	作业可运行的计算节点分组
mapred.task.timeout	任务没有响应（输入输出）的最大时间
mapred.compress.map.output	map的输出是否压缩
mapred.map.output.compression.codec	map的输出压缩方式
stream.map.output.field.separator	map输出分隔符

23232323232

在map端产生join: 这样设置，hive就会自动的识别比较小的表，继而用mapJoin来实现两个表的联合。

Hive配置中有个参数hive.mapred.mode，分为nonstrict，strict，默认是nonstrict;
如果设置为strict，会对三种情况的语句在compile环节做过滤：

笛卡尔积Join。这种情况由于没有指定reduce join key，所以只会启用一个reducer，数据量大时会造成性能瓶颈
order by后面不跟limit。order by会强制将reduce number设置成1，不加limit，会将所有数据sink到reduce端来做全排序。
读取的表是partitioned table，但没有指定partition predicate。

注：如果是多级分区表的话，只要出现任何一个就放行
这三种情况在数据量比较大的情况下都会造成生成低效的MR Job，影响执行时间和效率

设置计算计算引擎为mapreduce(默认)

设置计算引擎为spark

关注