Hadoop安装

一、启动Docker容器

1.加载镜像

实验使用的Docker镜像保存在/cg/images/hadoop_node.tar.gz文件中,执行如下命令加载该镜像:

docker load < /cg/images/hadoop_node.tar.gz

2.启动实验容器

执行如下4条命令,启动4个名称分别为master、slave1、slave2、slave3的docker容器用于实验:

docker run --name master --privileged --hostname master --ip 172.18.0.2 --add-host=slave1:172.18.0.3 --add-host=slave2:172.18.0.4 --add-host=slave3:172.18.0.5 -itd -v /cgsrc:/cgsrc:ro -v /headless/course/:/course hadoop_node /service_start.sh

docker run --name slave1 --privileged --hostname slave1 --ip 172.18.0.3 --add-host=master:172.18.0.2 --add-host=slave2:172.18.0.4 --add-host=slave3:172.18.0.5 -itd -v /cgsrc:/cgsrc:ro hadoop_node /service_start.sh

docker run --name slave2 --privileged --hostname slave2 --ip 172.18.0.4 --add-host=master:172.18.0.2 --add-host=slave1:172.18.0.3 --add-host=slave3:172.18.0.5 -itd -v /cgsrc:/cgsrc:ro hadoop_node /service_start.sh

docker run --name slave3 --privileged --hostname slave3 --ip 172.18.0.5 --add-host=master:172.18.0.2 --add-host=slave1:172.18.0.3 --add-host=slave2:172.18.0.4 -itd -v /cgsrc:/cgsrc:ro hadoop_node /service_start.sh

执行结果如下: 

在终端使用如下命令进入容器中:

docker exec -it --privileged $NAME /bin/bash

将命令中的$NAME替换为对应的容器名称即可,比如进入master容器可以使用命令:

docker exec -it --privileged master /bin/bash

特别注意:

如果再次进入桌面实验环境后,发现容器未启动(使用下面命令查看)

docker ps

按顺序使用下面命令启动容器。

docker start master

docker start slave1

docker start slave2

docker start slave3

注意:不要使用 docker start master slave1 slave2 slave3并发启动多容器,使用该命令启动容器时,容器的启动先后顺序是不确定的,这可能会导致容器分配到的IP和创建容器时指定的IP不一致,导致集群无法启动。

然后检查IP和hosts是否对应,如果不对,使用下面命令关闭容器后,再次按顺序启动容器。

docker stop master slave1 slave2 salve3


二、配置Hadoop环境

1.配置JAVA环境

Hadoop是基于Java语言开发的,因此需要安装Java环境。

在这里我们仅介绍master的配置方法,slave1、slave2和slave3都需要按照下面的步骤配置Java环境!

首先使用命令docker exec -it --privileged master /bin/bash进入master容器,如下图所示:

在容器master中使用如下命令从资源文件夹/cgsrc中将JDK安装包复制到/usr/local/java目录下:

mkdir /usr/local/java

cp /cgsrc/jdk-8u171-linux-x64.tar.gz /usr/local/java/

我们接下来切换到/usr/local/java目录下,将安装包解压,并删除用过的tar文件。

cd /usr/local/java/

tar -zxvf jdk-8u171-linux-x64.tar.gz

rm -f jdk-8u171-linux-x64.tar.gz

此时/usr/local/java目录下仅有一个jdk1.8.0_171目录,这就是Java主目录。

接下来需要配置JAVA_HOME环境变量,为了方便起见,这里直接在~/.bachrc这个文件中进行设置,采用这种配置方式时,只对当前登录的单个用户生效,当该用户登录以及每次打开新的Shell时,它的环境变量文件.bashrc会被读取。输入下面命令打开当前登录用户的环境变量配置文件.bashrc:

vim ~/.bashrc

在文件最后面添加如下3行(注意等号前后不能有空格),然后保存退出vim:

export JAVA_HOME=/usr/local/java/jdk1.8.0_171

export CLASSPATH=.:${JAVA_HOME}/jre/lib/rt.jar:${JAVA_HOME}/lib/dt.jar:${JAVA_HOME}/lib/tools.jar

export PATH=$PATH:${JAVA_HOME}/bin

接下来让环境变量生效,执行如下代码:

source ~/.bashrc

执行上述命令后,可以检验一下是否设置正确:

echo $JAVA_HOME #检验变量值

java -version #查看java版本

输出如下即表明配置Java环境成功:

java version "1.8.0_171"

Java(TM) SE Runtime Environment (build 1.8.0_171-b11)

Java HotSpot(TM) 64-Bit Server VM (build 25.171-b11, mixed mode)

请务必以同样的步骤对每个节点进行配置!

2.配置分布式模式

当Hadoop采用分布式模式部署和运行时,存储采用分布式文件系统HDFS。而且,HDFS的名称节点和数据节点位于不同的机器上。这时,数据就可以分布到多个节点上,不同数据节点上的数据计算可以并行执行,这使得MapReduce分布式计算能力才能真正发挥作用。

本节使用4个节点搭建集群环境:1个Master节点和3个Slave节点,这4个节点可以看做是4台物理机器。节点的IP地址可以在对应的命令行中使用ifconfig命令查看:

Hadoop集群的安装配置大致包括以下步骤:

(1)选定1个节点作为Master

(2)在Master节点上安装Hadoop,并完成配置。

(3)将Master节点上的Hadoop目录复制到其他Slave节点上

(4)在Master节点上开启Hadoop

3.配置hosts文件

本次演示中,4个节点的ip地址如下:

(1)master 172.18.0.2

(2)slave1 172.18.0.3

(3)slave2 172.18.0.4

(4)slave3 172.18.0.5

由于我们在docker的启动命令里已经加入了host配置,所以检查发现/etc/hosts文件里映射关系齐全则可以略过此步骤。

执行如下命令打开并修改master节点中的/etc/hosts文件:

vim /etc/hosts

确保在hosts文件中有如下IP和主机名映射关系:

172.18.0.2 master

172.18.0.3 slave1

172.18.0.4 slave2

172.18.0.5 slave3

上面完成了master节点的配置,接下来在3个slave节点中使用同样步骤配置hosts文件。

在各个节点上执行如下指令,测试节点之间是否已经联通:

ping master -c 3

ping slave1 -c 3

ping slave2 -c 3

ping slave3 -c 3

如果都能连通,则配置成功。

4.配置SSH无密码登录

需要让master节点可以SSH无密码登录到各个slave节点上。

首先,生成master节点的公钥,如果之前已经生成过公钥,必须删除原来的公钥,重新生成一次。具体命令如下:

cd ~/.ssh #如果没有该目录,先执行一次 ssh localhost,密码默认为83953588abc

rm -f ./id_rsa* #删除之前生成的公钥

ssh-keygen -t rsa #执行该命令后,遇到提示信息,均按Enter即可

为了让master节点能无密码SSH登录到本机,需要在master节点上执行如下命令:

cat ./id_rsa.pub >> ./authorized_keys

完成后可以执行ssh master来验证一下,可能会遇到提示信息,只要输入 yes 即可,测试成功后执行exit命令返回原来的终端。  接下来在master节点上将公钥传输到3个slave节点:

scp ~/.ssh/id_rsa.pub root@slave1:/root

scp ~/.ssh/id_rsa.pub root@slave2:/root

scp ~/.ssh/id_rsa.pub root@slave3:/root

执行scp复制文件时会要求输入相应的slave的密码,默认为:83953588abc

传输完成后在3个slave节点上将SSH公钥加入授权:

mkdir -p ~/.ssh #如果slave节点上已存在该目录,则先删除该目录再执行该命令

cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

rm -f ~/id_rsa.pub

slave1的操作过程如下图所示:

slave2的操作过程如下图所示:

slave3的操作过程如下图所示:

这样就可以在master节点上无密码SSH登录到各个slave节点了。

注意:由于启动Hadoop集群时,master节点需要通过ssh登录自身节点(ssh localhost),为了去掉ssh的交互式认证提示,需要在master节点上执行以下命令:

ssh-keyscan localhost >> ~/.ssh/known_hosts

上述执行过程如下图所示:

练习1: 请在master节点上使用如下3条命令,确认可以从master无密码ssh登录到各个slave节点。

ssh slave1

ssh slave2

ssh slave3

如果不能无密码登录,请重新按照实验指导手册排查问题。

5.安装Hadoop并配置环境变量

在master节点上执行如下操作安装hadoop并配置环境变量。

首先将hadoop安装包复制到 /usr/local 目录下:

cp /cgsrc/hadoop-2.7.1.tar.gz /usr/local/

切换到/usr/local目录下,对安装包进行解压:

cd /usr/local

tar -zxvf hadoop-2.7.1.tar.gz

rm -f hadoop-2.7.1.tar.gz

解压得到名为hadoop-2.7.1的目录,将其重命名为 hadoop:

mv hadoop-2.7.1/ hadoop

该命令执行后,local目录下的内容如下图所示:

之后就可以配置PATH变量了,使我们可以在任何目录下使用hadoop指令。

首先打开 ~/.bashrc 文件:

vim ~/.bashrc

然后在该文件最末加入下面一行内容:

export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin

保存后执行 source ~/.bashrc 使配置生效。

之后执行如下命令查看hadoop版本:

hadoop version

若得到如下输出则安装成功: 


上一个步骤 下一个步骤

重要的文件建议保存在工作路径:/mnt/cgshare下,如果容器出现故障,桌面还原之后,点击 “更多” / “工作目录文件浏览器” 找回。

有关实验环境的非持久化问题

关闭当前实验页面后,大概5分钟左右,除持久化目录 /mnt/cgshare 之外,容器所占的计算资源会被释放,同时容器自身也会被销毁。 因此实验过程需要注意:

  • 实验过程中安装的软件包,再次打开实验环境的时候,需要重新安装;
  • 实验数据和结果保存在 /mnt/cgshare 目录内,避免丢失实验成果;
  • 如果重置实验环境,容器可能会被分配到其它计算节点,点击顶部的“更多”->“工作目录浏览器”找回实验数据。、

一、配置集群环境

配置集群环境时,需要修改 /usr/local/hadoop/etc/hadoop 目录下的配置文件,这里仅设置正常启动必须的设置项,包括 slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共五个文件。

以下对master节点的配置文件进行修改。

1.修改文件slaves

需要把所有数据节点的主机名写入该文件,每行一个,默认为localhost(即把本机作为数据节点)。在进行集群配置时,可以保留localhost,让master节点同时充当名称节点和数据节点,也可以删除localhost这行,让master节点仅作为名称节点使用。

本节让master节点仅作为名称节点使用,因此将slaves文件中原来的内容删除,添加如下内容:

slave1

slave2

slave3

2.修改文件core-site.xml

把core-site.xml文件修改为如下内容:

<configuration>
   <property>
      <name>fs.defaultFS</name>
      <value>hdfs://master:9000</value>
   </property>
   <property>
      <name>hadoop.tmp.dir</name>
      <value>file:/usr/local/hadoop/tmp</value>
   </property>
</configuration>

3. 修改文件hdfs-site.xml

对于Hadoop的分布式文件系统HDFS而言,一般是采用冗余存储,冗余因子一般是3,也就是说一份数据保存3份副本。设置该冗余因子的参数为dfs.replication。所以,dfs.replication设置为3,文件具体内容如下:

<configuration>
   <property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>master:50090</value>
   </property>
   <property>
      <name>dfs.replication</name>
      <value>3</value>
   </property>
   <property>
      <name>dfs.namenode.name.dir</name>
      <value>file:/usr/local/hadoop/tmp/dfs/name</value>
   </property>
   <property>
      <name>dfs.datanode.data.dir</name>
      <value>file:/usr/local/hadoop/tmp/dfs/data</value>
   </property>
</configuration>

4.修改文件mapred-site.xml

/usr/local/hadoop/etc/hadoop 目录下有一个 mapred-site.xml.template文件,需要复制该文件为 mapred-site.xml:

cp mapred-site.xml.template mapred-site.xml

然后配置mapred-site.xml文件如下:

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
   <property>
      <name>mapreduce.jobhistory.address</name>
      <value>master:10020</value>
   </property>
   <property>
      <name>mapreduce.jobhistory.webapp.address</name>
      <value>master:19888</value>
   </property>
</configuration>

5.修改文件yarn-site.xml

把 yarn-site.xml 配置为如下内容:

<configuration>
   <property>
      <name>yarn.resourcemanager.hostname</name>
      <value>master</value>
   </property>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
   <property>
      <name>yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage</name>
      <value>98.5</value>
   </property>
</configuration>


二、配置slave节点

五个配置文件配置完成之后,需要把master节点上的 /usr/local/hadoop 文件复制到各个节点上。

在master节点上执行具体命令如下:

cd /usr/local

rm -rf ./hadoop/tmp #删除临时文件

rm -rf ./hadoop/logs/* #删除日志文件

tar -zcf ~/hadoop.master.tar.gz ./hadoop #先压缩再复制

cd ~

scp ./hadoop.master.tar.gz root@slave1:/root

scp ./hadoop.master.tar.gz root@slave2:/root

scp ./hadoop.master.tar.gz root@slave3:/root

然后分别在slave1、slave2和slave3节点上执行如下命令:

rm -rf /usr/local/hadoop #如果有旧文件则先删除

tar -zxf ~/hadoop.master.tar.gz -C /usr/local

rm -f ~/hadoop.master.tar.gz


三、启动Hadoop集群

首次启动Hadoop集群时,需要先在master节点执行名称节点的格式化:

hdfs namenode -format

如果该命令执行后,没有报出任何错误,就说明格式化正确了。如果有错误,注意检查前面的配置文件。

现在可以启动Hadoop了,启动需要在master节点上进行,执行如下命令:

start-dfs.sh

start-yarn.sh

mr-jobhistory-daemon.sh start historyserver

通过命令jps可以查看各个节点启动的进程。如果已经正确启动,则在master节点上可以看到如下进程:

在slave节点上可以看到如下进程:

缺少任一进程都表示出错。

也可以在浏览器中输入 master的ip:50070 查看节点状态。

练习2(必做): 请运行官方案例wordcount验证mapreduce是否可以正常工作。如果可以正常工作,则不会影响后续实验的开展。否则,请重新按照实验步骤仔细检查相关配置。

至此,hadoop集群安装完成。


上一个步骤 下一个步骤

重要的文件建议保存在工作路径:/mnt/cgshare下,如果容器出现故障,桌面还原之后,点击 “更多” / “工作目录文件浏览器” 找回。

有关实验环境的非持久化问题

关闭当前实验页面后,大概5分钟左右,除持久化目录 /mnt/cgshare 之外,容器所占的计算资源会被释放,同时容器自身也会被销毁。 因此实验过程需要注意:

  • 实验过程中安装的软件包,再次打开实验环境的时候,需要重新安装;
  • 实验数据和结果保存在 /mnt/cgshare 目录内,避免丢失实验成果;
  • 如果重置实验环境,容器可能会被分配到其它计算节点,点击顶部的“更多”->“工作目录浏览器”找回实验数据。

总结

通过本实验,应掌握Hadoop集群的搭建。


上一个步骤

重要的文件建议保存在工作路径:/mnt/cgshare下,如果容器出现故障,桌面还原之后,点击 “更多” / “工作目录文件浏览器” 找回。

有关实验环境的非持久化问题

关闭当前实验页面后,大概5分钟左右,除持久化目录 /mnt/cgshare 之外,容器所占的计算资源会被释放,同时容器自身也会被销毁。 因此实验过程需要注意:

  • 实验过程中安装的软件包,再次打开实验环境的时候,需要重新安装;
  • 实验数据和结果保存在 /mnt/cgshare 目录内,避免丢失实验成果;
  • 如果重置实验环境,容器可能会被分配到其它计算节点,点击顶部的“更多”->“工作目录浏览器”找回实验数据。
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop是一个开源的分布式计算系统,用于处理大规模数据集的分布式存储和处理。下面是Hadoop安装步骤: 1. 下载Hadoop:你可以从Apache官方网站上下载Hadoop的最新版本。选择合适的版本和文件类型进行下载。 2. 解压Hadoop压缩包:将下载的压缩包解压到你想要安装Hadoop的路径下。 3. 配置环境变量:编辑你的环境变量文件(如.bashrc或.profile),将Hadoop的bin目录添加到PATH变量中。例如,在.bashrc文件中添加以下行: export HADOOP_HOME=/path/to/hadoop export PATH=$PATH:$HADOOP_HOME/bin 保存文件后,运行以下命令使其生效: source ~/.bashrc 4. 配置Hadoop:进入Hadoop安装目录,在conf目录下找到core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml这四个配置文件,进行必要的配置。主要配置项包括文件系统的URI、数据存储路径、任务调度器等。 5. 设置SSH无密码登录:Hadoop使用SSH来管理集群节点之间的通信,因此需要设置SSH无密码登录。确保你可以通过SSH无密码登录到本地和所有集群节点。 6. 格式化HDFS文件系统:在Hadoop安装目录下执行以下命令,格式化HDFS文件系统: hdfs namenode -format 7. 启动Hadoop集群:执行以下命令启动Hadoop集群: start-dfs.sh # 启动HDFS start-yarn.sh # 启动YARN 执行以上命令后,你可以通过Web界面访问Hadoop的各个组件。 以上是基本的Hadoop安装步骤,请根据自己的需求进行相应的配置和调整。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值