TeraSort实验--测试Map和Reduce Task数量对Hadoop性能的影响

最新推荐文章于 2021-12-10 18:52:38 发布

xiejava

最新推荐文章于 2021-12-10 18:52:38 发布

阅读量5.8k

点赞数

分类专栏： Hadoop 文章标签： hadoop 测试 input kill 任务网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiejava/article/details/6432095

版权

在1个master和16个slave节点的Hadoop环境中，通过Terasort实验研究了不同数量的map和reduce任务对性能的影响。实验表明，reduce task数量接近或略大于节点数时，性能最优；而map任务数量过多会导致性能下降。Killed map Task Attempts主要由speculative执行机制引起，可通过设置mapred.map.tasks.speculative.execution为false优化。1G和10G数据中，Input Split Size设为128M时性能最佳，且数据量增大可能导致更多Failed tasks。

摘要由CSDN通过智能技术生成

一、 实验环境

1个master节点, 16个slave节点: CPU:8GHZ , 内存: 2G

网络：局域网

二、 实验描述

通过Hadoop自带的Terasort排序程序，测试不同的map task和reduce task数量，对Hadoop性能的影响。

实验数据由程序中的teragen程序生成，数据量为1GB和10GB。

通过设置mapred.min.split.size，从而调节map task的数量；设置mapred.reduce.tasks，从而调节reduce task的数量；

dfs.replication的值设为3，其它参数默认。

三、 实验结果与分析

Ø 实验一

表1、改变reduce task（数据量为1GB)

Map task = 16
Reduce task	1	5	10	15	16	20	25	30	45	60
总时间	892	146	110	92	88	100	128	101	145	104
Map 时间	24	21	25	50	21

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

xiejava CSDN认证博客专家 CSDN认证企业博客

码龄17年

18: 原创

32万+: 周排名

216万+: 总排名

8万+: 访问

: 等级

1209: 积分

17: 粉丝

7: 获赞

11: 评论

13: 收藏

私信

关注

热门文章

分类专栏

最新评论

HadoopDB集群配置方法
Zoin: hive> select name from raw; Total MapReduce jobs = 1 Number of reduce tasks is set to 0 since there's no reduce operator Job Submission failed with exception 'java.lang.NullPointerException(null)' FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.ExecDriver 这种错误楼主有什么思路吗。。
HadoopDB集群配置方法
Zoin: 解决了，我用的hadoop是2.6的，用0.20.2的hadoop就行。。可是为什么最后一步我select没出数据，是空的
HadoopDB集群配置方法
Zoin: 而且在SMS的hive里创建普通表也会报这个错，不知道为啥 zoin@master:~/Desktop/hadoopdb/dist$ bin/hive WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated. Please use org.apache.hadoop.log.metrics.EventCounter in all the log4j.properties files. Hive history file=/tmp/zoin/hive_job_log_zoin_201812021803_511481248.txt hive> create table rawraw (id int,name string); Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.security.UserGroupInformation.readFrom(Lorg/apache/hadoop/conf/Configuration;)Lorg/apache/hadoop/security/UserGroupInformation;
HadoopDB集群配置方法
Zoin: at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:258) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:498) at org.apache.hadoop.util.RunJar.run(RunJar.java:221) at org.apache.hadoop.util.RunJar.main(RunJar.java:136)
HadoopDB集群配置方法
Zoin: hive> CREATE EXTERNAL TABLE raw ( > ID int, > NAME string > ) > ROW FORMAT DELIMITED > FIELDS TERMINATED BY ' ' > STORED AS > INPUTFORMAT 'edu.yale.cs.hadoopdb.sms.connector.SMSInputFormat' > OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' > LOCATION '/db/raw'; Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.security.UserGroupInformation.readFrom(Lorg/apache/hadoop/conf/Configuration;)Lorg/apache/hadoop/security/UserGroupInformation; at org.apache.hadoop.hive.conf.HiveConf.getUser(HiveConf.java:400) at org.apache.hadoop.hive.ql.exec.DDLTask.createTable(DDLTask.java:761) at org.apache.hadoop.hive.ql.exec.DDLTask.execute(DDLTask.java:100) at org.apache.hadoop.hive.ql.Driver.execute(Driver.java:335) at org.apache.hadoop.hive.ql.Driver.run(Driver.java:241) at org.apache.hadoop.hive.cli.CliDriver.processCmd(CliDriver.java:122) at org.apache.hadoop.hive.cli.CliDriver.processLine(CliDriver.java:165

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。