MapReduce部署到yarn环境中

准备:

(1)在hdfs-ha上搭建mapreduce环境,关于hdfs-ha搭建请看另一篇博文:Hadoop2.5的HDFS集群HA搭建(高可用集群)

(2)有5台主机node1,node2,node3,node4,node5,依旧采用zookeeper选举制度,使用hdfs-ha中的zookeeper集群就可以,其可以为多个应用提供服务

node1为resourcemanager的主机,node2为resourcemanager的备机


1.mapreduce是hadoop 分布式计算框架,mr的设计理念是移动计算而不是移动数据


2.宏观计算流程

(1).split

切文件,切为block,得到数据片段,最小10M,最大100M,默认64M(可配置)

(2).mapper

负责分拆,把复杂的任务分解为若干个"简单的任务"执行;这个为自己写的程序,一个数据碎片得到一个map任务,每个线程执行map任务,一个java类初始化为不同对象去分配给线程任务执行,输出和输入数据为键值对

(3).shuffling进行洗牌的动作排序,分组,合并,拷贝等操作

a.在map phase一段处理:

map步骤输出数据到内存中buffer in memory(默认100M),当内存中数据量较大,写入到磁盘中经过partition sort and split to disk(统称partitions分区),分区算法是每个map的key

值%reduces数量,所以默认值partitions只有0一个分区,而排序sort默认为字典排序

b.reduces phase会抓取(fetch)partitions阶段的数据进行处理,进行sort,marge然后汇总输出到reduce


3.搭建yarn环境

4.修改yarn-site.xml 

vi   /usr/hadoop-2.5.1/etc/hadoop/yarn-site.xml 如果没有yarn-site.xml执行 mv mapred-site.xml.template mapred-site.xml 将其改名为此配置文件

<configuration>
<!-- Site specific YARN configuration properties -->
<property>
  <name>yarn.resourcemanager.ha.enabled</name>
  <value>true</value>
</property>

#开启自动切换
<property>
  <name>yarn.resourcemanager.cluster-id</name>
  <value>hadyarn</value>

#resourcemanager名称
</property>
<property>
  <name>yarn.resourcemanager.ha.rm-ids</name>
  <value>rm1,rm2</value>
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm1</name>
  <value>node1</value>

#主机
</property>
<property>
  <name>yarn.resourcemanager.hostname.rm2</name>
  <value>node2</value>

#备机
</property>
<property>
  <name>yarn.resourcemanager.zk-address</name>
  <value>node1:2181,node2:2181,node3:2181</value>

#zookeeper
</property>
  <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>


5.修改mapred-site.xml 

 vi  /usr/hadoop-2.5.1/etc/hadoop/mapred-site.xml 

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

#告诉hdfs使用yarn环境
</configuration>


6.启动yarn环境

start-yarn.sh 

starting yarn daemons
starting resourcemanager, logging to /usr/hadoop-2.5.1/logs/yarn-root-resourcemanager-node1.out   启动主节点的resourcemanager
192.168.108.15: starting nodemanager, logging to /usr/hadoop-2.5.1/logs/yarn-root-nodemanager-node5.out 启动yarn的节点控制
192.168.108.14: starting nodemanager, logging to /usr/hadoop-2.5.1/logs/yarn-root-nodemanager-node4.out
192.168.108.13: starting nodemanager, logging to /usr/hadoop-2.5.1/logs/yarn-root-nodemanager-node3.out


7.启动从节点的resourcemanager

上面只会启动主节点的resourcemanager,副节点需要手动启动

 yarn-daemon.sh start resourcemanager
starting resourcemanager, logging to /usr/hadoop-2.5.1/logs/yarn-root-resourcemanager-node2.out


8.验证

访问8088的监控端口号,主机有界面,副机没有,将出现一段文字后重来



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值