Hdoop配置文件

作业配置

mapred.job.name作业名
mapred.job.priority作业优先级
mapred.job.map.capacity最多同时运行map任务数
mapred.job.reduce.capacity最多同时运行reduce任务数
hadoop.job.ugi作业执行权限
mapred.map.tasksmap任务个数
mapred.reduce.tasksreduce任务个数
mapred.job.groups作业可运行的计算节点分组
mapred.task.timeout任务没有响应(输入输出)的最大时间
mapred.compress.map.outputmap的输出是否压缩
mapred.map.output.compression.codecmap的输出压缩方式
stream.map.output.field.separatormap输出分隔符

工作中配置文件解析

23232323232

语法: set hive.auto.convert.join=false;

在map端产生join: 这样设置,hive就会自动的识别比较小的表,继而用mapJoin来实现两个表的联合。

语法:hive.mapred.mode=nonstrict

Hive配置中有个参数hive.mapred.mode,分为nonstrict,strict,默认是nonstrict;
如果设置为strict,会对三种情况的语句在compile环节做过滤:

  • 笛卡尔积Join。这种情况由于没有指定reduce join key,所以只会启用一个reducer,数据量大时会造成性能瓶颈

  • order by后面不跟limit。order by会强制将reduce number设置成1,不加limit,会将所有数据sink到reduce端来做全排序。

  • 读取的表是partitioned table,但没有指定partition predicate。

注:如果是多级分区表的话,只要出现任何一个就放行
这三种情况在数据量比较大的情况下都会造成生成低效的MR Job,影响执行时间和效率

语法:set hive.execution.engine=mr

设置计算计算引擎为mapreduce(默认)

语法:set hive.execution.engine=spark

设置计算引擎为spark


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

piepis

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值