3.运行hadoop案例（完全分布模式）

最新推荐文章于 2022-07-01 15:30:35 发布

Songzhɑng ✪

最新推荐文章于 2022-07-01 15:30:35 发布

阅读量169

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/qq_38204087/article/details/107134507

版权

hadoop 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

1）虚拟机克隆：hadoop01、 hadoop02、 hadoop03

2）编写集群分发脚本xsync

（a）脚本编写

#!/bin/bash
#1 获取输入参数个数，如果没有参数，直接退出
pcount=$#
if((pcount==0)); then
echo no args;
exit;
fi

#2 获取文件名称
p1=$1
fname=`basename $p1`
echo fname=$fname

#3 获取上级目录到绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir

#4 获取当前用户名称
user=`whoami`

#5 循环
for((host=01; host<04; host++)); do
        echo ------------------- hadoop$host --------------
        rsync -rvl $pdir/$fname $user@hadoop0$host:$pdir
done

（b）修改脚本 xsync 具有执行权限： chmod 777 xsync

（c）调用脚本形式：xsync 文件名称

注意：如果将xsync放到/home/atguigu/bin目录下仍然不能实现全局使用，可以将xsync移动到/usr/local/bin目录下。

3）集群配置

(a)集群部署规划

(b)配置集群

（1）核心配置文件(core-site.xml)

<!-- 指定HDFS中NameNode的地址 -->
<property>
		<name>fs.defaultFS</name>
      <value>hdfs://hadoop01:9000</value>
</property>

<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

(2)HDFS配置文件(hadoop-env.sh和hdfs-site.xml)

vi hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

vi hdfs-site.xml

<!-- 文件副本数 -->
<property>
	<name>dfs.replication</name>
	<value>3</value>
</property>

<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>hadoop03:50090</value>
</property>

（3）yarn配置文件（yarn-env.sh和yarn-site.xml）

vi yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

vi yarn-site.xml

<!-- Reducer获取数据的方式 -->
<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>hadoop02</value>
</property>

（4）mapreduce配置文件（mapred-env.sh和mapred-site.xml）

vi mapred-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<!-- 指定MR运行在Yarn上 -->
<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
</property>

(c)在集群上分发配置好的Hadoop配置文件

xsync /opt/module/hadoop-2.7.2/

(d)查看文件分发情况

cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml

4）集群单点启动

每次都一个一个节点启动，如果节点数增加到1000个怎么办？早上来了开始一个一个节点启动，到晚上下班刚好完成，下班？

5）SSH无密登录配置

（a）生成公钥和私钥
 ssh-keygen -t rsa

（b）将公钥拷贝到要免密登录的目标机器上
 ssh-copy-id hadoop01
 ssh-copy-id hadoop02
 ssh-copy-id hadoop03

6）群起集群

1.配置slaves
在该文件中增加如下内容：
hadoop102
hadoop103
hadoop104
注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。同步所有节点配置文件
xsync slaves

2.启动集群
（1）如果集群是第一次启动，需要格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）
bin/hadoop namenode -format

（2）启动HDFS
sbin/start-dfs.sh

（3）启动YARN
sbin/start-yarn.sh

7)集群测试

Songzhɑng ✪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
3.运行hadoop案例（完全分布模式）

1）虚拟机克隆：hadoop01、 hadoop02、 hadoop032）编写集群分发脚本xsync（a）脚本编写#!/bin/bash#1 获取输入参数个数，如果没有参数，直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname#3 获取上级目录到绝对路径pdir=`cd -P $(dirname $p1);
复制链接

扫一扫