Hadoop MapReduce 学习笔记

本文介绍了Hadoop MapReduce的学习笔记,包括Hadoop集群的拓扑结构和硬件配置,详细阐述了如何在8个VM上配置Hadoop 2.7.5,以及重要的配置文件如core-site.xml、hdfs-site.xml、yarn-site.xml和mapred-site.xml的调整。重点讨论了HDFS的replication和blocksize参数,以及MapReduce中关于内存、排序和并行复制的参数设置,以优化任务性能。
摘要由CSDN通过智能技术生成

本文的部分图片、文字来自于HKU COMP7305 Cluster and Cloud Computing,Professor: C.L.Wang

hadoop官方文档:http://hadoop.apache.org/docs/r2.7.5/

拓扑结构和硬件配置

先讲一下Hadoop之前的底层的结构,我们是4人一组,每个人一台机器,装上Xen,然后用Xen开两个VM,就是一共8个VM,配置上格式跟下图大同小异(我们是一个i5的CPU,3个2.9GHz的i3CPU ,内存都是16G的),我们用配置最高的那台机器当master。我们的Hadoop版本是2.7.5,具体的配置方法可能难以全写下,这里挑一部分写。


一个master控制8个VM的方法:

首先是在master node 里 Add key to all VMs ,然后用ssh做一下test

然后在master node 的 /opt/hadoop-2.7.5/etc/hadoop/slaves 这个里面


在slave里 /opt/hadoop-2.7.5/etc/hadoop/masters

加上master node

然后在core-site和yarn-site这俩xml文件里分别写上hdfs的地址和hostname 

core:

yarn:

然后写个脚本把4个配置文件(core、hdfs、mapred、yarn -site.xml)都从当前的master copy到slave上

脚本里大概就是这种的内容

scp /opt/hadoop-2.7.5/etc/hadoop/core-site.xml student61-x1:/opt/hadoop-2.7.5/etc/hadoop/core-site.xml

如果slave之前有hdfs,那么如果有必要可以先删了

rm -rf /var/hadoop/hadoop-hduser/dfs/*

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值