hadoop中mapred.tasktracker.map.tasks.maximum的设置

最新推荐文章于 2024-03-22 19:01:44 发布

iteye_3156

最新推荐文章于 2024-03-22 19:01:44 发布

阅读量347

点赞数

分类专栏：数据层 hadoop 专业知识文章标签：大数据

本文链接：https://blog.csdn.net/iteye_3156/article/details/82341225

版权

专业知识同时被 3 个专栏收录

177 篇文章 0 订阅

订阅专栏

数据层

109 篇文章 0 订阅

订阅专栏

hadoop

34 篇文章 0 订阅

订阅专栏

目前，我们邮件的一部分log已经迁移到Hadoop集群上

并由Hive来执行相关的查询

hadoop中默认的mapred.tasktracker.map.tasks.maximum设置是2

也即：每一个tasktracker同时运行的map任务数为2

照此默认设置，查询80天某用户的操作日志，耗时5mins, 45sec

经过测试，发现将mapred.tasktracker.map.tasks.maximum设置为节点的cpu cores数目或者数目减1比较合适

此时的运行效率最高，大概花费3mins, 25sec

我们现在的机器都是8核的，所以最终配置如下：

<property>
    <name>mapred.tasktracker.map.tasks.maximum</name>
    <value>8</value>
    <description>The maximum number of map tasks that will be run
    simultaneously by a task tracker.
    </description>
</property>

而对于mapred.map.tasks（每个job的map任务数）值，hadoop默认值也为2

可以在执行hive前，通过set mapred.map.tasks=24来设定

但由于使用hive，会操作多个input文件，所以hive默认会把map的任务数设置成输入的文件数目

即使你通过set设置了数目，也不起作用…

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_3156

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Hive 配置mapred.tasktracker.map.tasks.maximum/hive.exec.reducers.max /每一个tasktracker同时运行的map任务数/最大map数

Top5软件工程硕士，先后在京东、字节从事多年Java后端开发、实时和离线大数据开发

01-19

595

set mapred.tasktracker.map.tasks.maximum ; -- 2 ,默认，每一个tasktracker同时运行的map任务数为2 The maximum number of map tasks that will be run simultaneously by a task tracker. set mapred.tasktracker.reduce.tasks.maximum ; -- 2 ,默认，每一个tasktracker同时运行的reduce任务数...

编写简单的Mapreduce程序并部署在Hadoop2.2.0上运行

过往记忆大数据

10-29

8720

经过几天的折腾，终于配置好了Hadoop2.2.0(如何配置在Linux平台部署Hadoop请参见本博客《在Fedora上部署Hadoop2.2.0伪分布式平台》)，今天主要来说说怎么在Hadoop2.2.0伪分布式上面运行我们写好的Mapreduce程序。先给出这个程序所依赖的Maven包：01020304050607080910111213141516171819202122

参与评论您还未登录，请先登录后发表或查看评论

mapred.tasktracker.map.tasks.maximum 和 cpu核数的关系

hacker_zhb的博客

05-03

552

The number of tasks that can be run simultaneously on a tasktracker is related to the number of processors available on the machine. Because MapReduce jobs are normally I/O-bound, it makes sense ...

task tracker最大任务数设置

superye1983的专栏

09-18

1938

用oozie跑一个workflow 这个workflow包含多个sqoop和pig脚本刚开始跑就发生了问题，具体情况为: sqoop启动的job，map显示100%，状态为running reduce 0%然后无反映，一直处于等待状态原因是我在本机伪分布式模式下默认的mapreduce个数为2 而在oozie的workflow中有多个任务要运行且有先后顺序先启动的任务占了slo

从一个经典案例看优化mapred.map.tasks的重要性

weixin_30555753的博客

04-27

319

我所在公司所使用的生产Hive环境的几个参数配置如下： dfs.block.size=268435456 hive.merge.mapredfiles=true hive.merge.mapfiles=true hive.merge.size.per.task=256000000 mapred.map.tasks=2 因为合并小文件默认为true，而dfs.block.size与hi...

Hadoop集群搭建.pdf

10-02

- `mapred.tasktracker.{map|reduce}.tasks.maximum`：定义TaskTracker上同时运行的最大Map或Reduce任务数量。 6. **日志管理**： - `HADOOP_LOG_DIR`：设置守护进程的日志文件存放目录，如果不存在，会自动创建...

MapReduce性能优化小记

shefin90的博客

05-09

626

配置参数 Hadoop 0.20.*版本之前的参数配置文件为conf/hadoop-site.xml，Hadoop0.20.*版本之后将该配置文件分为core-site.xml、hdfs-site.xml、mapred-site.xml三个文件。 ① 优化Map和Reduce任务数参数mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum决定了一台服务器上最多能同时运行的Map和Reduce任务数..

Hive优化

Colin Lau Oracle

07-08

597

1. 概述 1.1 hive的特征：可以通过SQL轻松访问数据的工具，从而实现数据仓库任务，如提取/转换/加载（ETL），报告和数据分析；它可以使已经存储的数据结构化；可以直接访问存储在Apache HDFS或其他数据存储系统（如Apache HBase）中的文件； Hive除了支持MapReduce计算引擎，还支持Spark和Tez这两种分布式计算引擎；它提供类似sql的查询语句HiveQL对数据进行分析处理；数据的存储格式有多种，比如数据源是二进制格式，普通文本格式等等； 1.2

hadoop mapreduce问题排查和解决

liupc123123的专栏

06-18

1272

前几天，由于项目最近在对算法引起

大数据架构师分享MapReduce V1：TaskTracker端启动Task流程分析

最新发布

2401_83384536的博客

03-22

918

如果在一个TaskTracker节点上运行的多个Task都属于同一个Job（一个TaskTracker上运行的Task按照Job来分组，每一组Task都属于同一个Job），那么第一次初始化时，还没有建立一个Task到Job的映射关系，也就是说，在TaskTracker端也要维护Job的状态，以及属于该Job的所有Task的状态信息。根据Task的类型，分别加入到对应类型的TaskLauncher的队列中。至此，一个Task通过Child VM的加载已经启动，就可以运行一个Task了，我们后续再详细介绍。

hadoop中如何控制map的数量

jediael_lu的专栏

08-08

3036

hadoop中如何控制map的数量@(HADOOP)[hadoop]hadooop提供了一个设置map个数的参数mapred.map.tasks，我们可以通过这个参数来控制map的个数。但是通过这种方式设置map的个数，并不是每次都有效的。原因是mapred.map.tasks只是一个hadoop的参考数值，最终map的个数，还取决于其他的因素。为了方便介绍，先来看几个名词： block_size

Hadoop MapReduce中map任务数量设定详解

DaSen的博客

09-18

4259

首先注意的是在Hadoop Streaming 中可以通过-D mapred.map.tasks=（你想要设定的map数量）来确定map任务的个数， goal_num = mapred.map.tasks 但是这里需要注意的是，只有在这个值大于hadoop中计算的默认个数default_num的时候才会有效，默认个数的计算方式如下： default_num = total_size / b...

MapReduce学习笔记和总结（三）— mapTask & reduceTask

Agent_Ethan的博客

02-12

1460

目录 MapReduce运行时的mapTask和reduceTask 1 mapTask任务 1.1 mapTask & mapTask并行度 1.2 如何修改mapTask并行度 2 reduceTask任务 2.1 reduceTask & reduceTask并行度 2.2 如何设置reduceTask的并行度 2.3 数据倾斜问题 MapReduce运行时...

ValueError: not enough values to unpack (expected 3, got 2)

JavaBigData的博客

11-08

340

数量要一样

hive map，reduce数目配置优化

weixin_38655836的博客

03-02

743

map task的数量即mapred.map.tasks的参数值，用户不能直接设置这个参数。Input Split的大小，决定了一个Job拥有多少个map。默认input split的大小是64M（与dfs.block.size的默认值相同）。然而，如果输入的数据量巨大，那么默认的64M的block会有几万甚至几十万的Map Task，集群的网络传输会很大，最严重的是给Job Tracker的调度...

hive MapRedTask 调度分析

chuntongshen5917的博客

04-28

776

承接上一篇博客：hive Derver类源码解析本文介绍最常用的mapred任务调度过程。作为个人的学习笔记，没有很好的描述博客，大家将就着看吧，如果有什么问题欢迎留言交流。上篇博客中 driver 的execute方法中调度了TaskRunner的 run方法或者runQuential方...

Hadoop参数调优，性能优化。

东城庞太师

05-26

1819

Hadoop参数调优一、 hdfs-site.xml 配置文件 1、 dfs.blocksize 参数：hadoop文件块大小描述：新文件的默认块大小，以字节为单位，默认 134217728 字节。可以使用以下后缀(大小写不敏感):k(kilo)、m(mega)、g(giga)、t(tera)、p(peta)、e(exa)来指定大小(如128k、512m、1g等)，或者以字节为单位提供完整的大小。 2、 dfs.namenode.handler.count 参数：namenode的

MapReduce V1: TaskTracker启动Task深入剖析

在这个过程中，TaskTracker会根据`mapred-site.xml`配置文件中的参数`mapred.tasktracker.map.tasks.maximum`和`mapred.tasktracker.reduce.tasks.maximum`来限制每个TaskTracker能同时处理的最大任务数量。...