Hadoop 常见参数

yarn.nodemanager.log.retain-seconds:日志保留时间。如果日志聚合被激活,这个时间可以忽略。
mapreduce.task.userlog.limit.kb:设置日志文件的最大阈值,默认为0,表示没有上限。
mapreduce.map.log.level
mapreduce.reduce.log.level

yarn.scheduler.minimum-allocation-vcores:单个任务可以申请的最小核心数
yarn.scheduler.maximum-allocation-vcores:单个任务可以申请的最大核心数
mapreduce.job.ubertask.enable

mapreduce.map.memory.mb:
mapreduce.reduce.memory.mb:
mapreduce.map.cpu.vcores:
mapreduce.reduce.cpu.vcores:

mapreduce.task.timeout:任务挂起状态下的超时时间,超过这个时间没有收到进度的更新,任务被标记为失败。值为0代表关闭此功能。
mapreduce.map.maxattempts:map任务的最大重试次数。
mapreduce.reduce.maxattempts:redecu任务的最大重试次数。

对于有些任务,即便部分任务失败,最终结果也还是可以用的,这时可以设置允许失败任务百分比:
mapreduce.map.faliures.maxpercent &mapreduce.reduce.faliures.maxpercent

mapreduce.am.max-attempts 默认为2,am的最大尝试次数。
yarn本身对application master的最大尝试次数也有限制,yarn.resourcemanager.am.max-attempts,默认值是2。
yarn.app.mapreduce.am.job.recovery.enable am失败时,资源管理器会检测到失败并在一个新的容器中开始一个新的master实例,使用作业历史来恢复失败的应用程序所运行任务的状态,使其不必重新运行,如果不需要这个功能,将这个配置设置为false。

yarn.resourcemanager.nm.liveness-moniter.expiry-intervals-ms 单位毫秒,nm的超时时间。如果nm被认定为超时,在该nm上运行成功的map任务,如果属于未完成的作业,那么这些map会被安排重新执行,因为map的结果存在本地,无法被reduce任务访问。 如果程序的运行失败次数过高,nm可能会被拉黑,尽管nm自己并没有失败过。
如果一个Nm上有超过三个任务失败,application master就会尽量将任务调度到不同的节点上,可以通过mapreduce.job.maxtaskfailures.per.tracker进行设置。

mapreduce.map.output.compress 是否开启map输出的压缩,默认情况下不压缩,如果需要开启,设置为true。具体采用哪种压缩方式,由mapreduce.map.output.compress.codec指定。
reduce通过HTTP得到输出文件的分区。用于文件分区的工作线程的数量由任务的mapreduce.shuffle.max.threads属性控制,这个参数针对的是每一个节点管理器,而不是针对每个map任务,默认是0,代表将最大线程数设置为机器中处理器数量的两倍。
reduce任务需要集群上若干个map任务的输出作为其特殊的文件分区,每个map任务完成的时间可能不同,因此在每个map任务完成的时候,reduce就开始复制其输出。reduce有少量的复制线程,默认值是5个线程,可以通过参数 mapreduce.reduce.shuffle.parallelcopies 来设置。
map任务成功完成后,会使用心跳机制通知他们的application master,因此对于指定作业,application master知道map输出和主机位置之间的映射关系。reduce中的一个线程定期询问master以便获取map输出主机的位置,知道获得所有输出位置。

如果map输出相当小,会被复制到reduce任务的jvm内存(缓冲区大小由mapreduce.reduce.shuffle.input.buffer.percent控制,指定此用途的堆空间百分比),否则map输出被复制到磁盘。一旦内存缓冲区达到阈值大小 (mapreduce.reduce.shuffle.merge.percent) 或达到map输出阈值(mapreduce.reduce.merge.inmem.threshold),则合并后溢出写到磁盘中。如果指定combiner,在合并期间会执行以降低写入硬盘的数据量。随着磁盘上副本增多,后台线程会为他们合并为更大的、排序好的文件。为了合并,压缩过的map输出会在内存中被解压缩。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值