apache hadoop 集群安装

最新推荐文章于 2023-02-23 23:33:50 发布

ltgsoldier1

最新推荐文章于 2023-02-23 23:33:50 发布

阅读量220

点赞数

本文链接：https://blog.csdn.net/ltgsoldier1/article/details/101192839

版权

使用虚拟机搭建个hadoop集群环境，在虚拟机里安装三台centos7系统

ip	主机名
192.168.158.30	hadoop.master
192.168.158.31	hadoop.slave1
192.168.158.32	hadoop.slave2

以下是三台机器都需要安装配置的项

1.安装java环境我安装的是JDK 1.8
安装方法：https://blog.csdn.net/ltgsoldier1/article/details/97780445
我把jdk安装到如下目录：

/usr/java/jdk1.8.0_221

配置java环境变量：

export JAVA_HOME=/usr/java/jdk1.8.0_221
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

**2.修改主机名 **

hostnamectl set-hostname hadoop.master           # 使用这个命令会立即生效且重启也生效
hostname                                         #查看是否修改完成

3.我们希望三个主机之间都能够使用主机名称的方式相互访问而不是IP，我们需要在hosts中配置其他主机的host。因此我们在主机的/etc/hosts下均进行如下配置

192.168.158.30    hadoop.master
192.168.158.31    hadoop.slave1
192.168.158.32    hadoop.slave2

将配置发送到其他主机（同时在其他主机上配置）：

scp /etc/hosts root@192.168.158.31:/etc/hosts
scp /etc/hosts root@192.168.158.32:/etc/hosts

4.关闭防火墙

systemctl stop firewalld                           #关闭防火墙
systemctl disable firewalld                        #开机禁用防火墙

5.设置ssh无密码登陆
所有节点都需要执行生成秘钥然后发送到其他所有节点实现ssh免密码登录如下是主节点的操作其他节点也如此操作

yum -y install openssh-clients              #安装ssh
ssh-keygen -t rsa                                 #一直按回车 生成秘钥
ssh-copy-id hadoop.slave1                  #发送到hadoop.slave1节点
ssh-copy-id hadoop.slave2                  #发送到hadoop.slave2节点

6.下载hadoop
下载地址：https://hadoop.apache.org/releases.html
在这里插入图片描述
我下载的是2.9.2版点击binary进入下载页

这两个地址下载那个都可以

#下载
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz

7.解压安装

mkdir /usr/hadoop                              #创建安装目录
tar -zxvf hadoop-2.9.2.tar.gz -C /usr/hadoop   #解压到安装目录

8.把hadoop添加到环境变量

vi /etc/profile.d/hadoop.sh         #添加编辑文件
#如下内容添加到hadoop.sh
export HADOOP_HOME=/usr/hadoop/hadoop-2.9.2
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$HADOOP_HOME/sbin:$PATH

#使修改的环境变量生效
source /etc/profile
#测试hadoop是否工作
hadoop version

9.配置hadoop
主机跟节点都需要配置四个文件

/usr/hadoop/hadoop-2.9.2/etc/hadoop   #配置文件位置

core-site.xml

<?xml version="1.0"?>
<!-- core-site.xml -->
<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop.master:8020/</value>
  </property>

</configuration>

hdfs-site.xml

<?xml version="1.0"?>
<!-- hdfs-site.xml -->
<configuration>
<!-- 设置dfs副本数，不设置默认是3个   -->
  <property>
    <name>dfs.replication</name>
    <value>2</value>
  </property>
</configuration>

mapred-site.xml 需要先修改文件名

mv mapred-site.xml.template mapred-site.xml

<?xml version="1.0"?>
<!-- mapred-site.xml -->
<configuration>
<!-- 指定mr运行在yarn上 -->
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

yarn-site.xml

<?xml version="1.0"?>
<!-- yarn-site.xml -->
<configuration>
<!-- 指定YARN的ResourceManager的地址 -->
  <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop.master</value>
  </property>
  <!-- reducer获取数据的方式 -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <!--开启日志聚合服务 可以在任务完成 查看任务日志 还可以查看map里的标准输出 和标准错误-->
  <property>
    <name>yarn.log-aggregation-enable</name>
    <value>True</value>
  </property>

</configuration>

以下为主机hadoop.master配置

修改slaves在hadoop-2.9.2/etc/hadoop/
每一条主机名代表一个加入此集群的节点

hadoop.master
hadoop.slave1
hadoop.slave2

格式化HDFS文件系统
首次运行hadoop 需要先格式化HDFS文件系统

hdfs namenode -format

11.启动和停止服务

/usr/hadoop/hadoop-2.9.2/sbin/start-all.sh           #启动服务
/usr/hadoop/hadoop-2.9.2/sbin/mr-jobhistory-daemon.sh start historyserver            #启动历史服务器
/usr/hadoop/hadoop-2.9.2/sbin/stop-all.sh           #停止服务
/usr/hadoop/hadoop-2.9.2/sbin/mr-jobhistory-daemon.sh stop historyserver           #停止历史服务器
#查看启动的服务
jps
#所有启动的服务
NameNode
DataNode
ResourceManager
SecondaryNameNode
JobHistoryServer
NodeManager

12.创建用户目录

hadoop fs -mkdir -p /user/$user

13.日志跟访问地址

/usr/hadoop/hadoop-2.9.2/logs        #日志

namenode地址：http://192.168.158.30:50070
资源管理器地址：http://192.168.158.30:8088
历史服务器地址：http://192.168.158.30:19888/jobhistory

遇到的问题

启动是发现有个节点datanode没起来查看节点的日志发现报如下错误

2019-09-23 10:31:02,225 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool BP-957474487-192.168.158.30-1566525546510 (Datanode Uuid e897913a-a208-4f08-8cc6-1e0d30505541) service to hadoop.master/192.168.158.30:8020 is shutting down
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.UnregisteredNodeException): Data node DatanodeRegistration(192.168.158.32:50010, datanodeUuid=e897913a-a208-4f08-8cc6-1e0d30505541, infoPort=50075, infoSecurePort=0, ipcPort=50020, storageInfo=lv=-57;cid=CID-e4f97b33-5abd-477d-a983-4faac8d5a221;nsid=171138030;c=1566525546510) is attempting to report storage ID e897913a-a208-4f08-8cc6-1e0d30505541. Node 192.168.158.31:50010 is expected to serve this storage.
	at org.apache.hadoop.hdfs.server.blockmanagement.DatanodeManager.getDatanode(DatanodeManager.java:575)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.processReport(BlockManager.java:2142)
	at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer$1.call(NameNodeRpcServer.java:1461)
	at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer$1.call(NameNodeRpcServer.java:1458)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager$BlockReportProcessingThread.processQueue(BlockManager.java:4205)
	at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager$BlockReportProcessingThread.run(BlockManager.java:4184)

	at org.apache.hadoop.ipc.Client.getRpcResponse(Client.java:1507)
	at org.apache.hadoop.ipc.Client.call(Client.java:1453)
	at org.apache.hadoop.ipc.Client.call(Client.java:1363)
	at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:227)
	at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:116)
	at com.sun.proxy.$Proxy15.blockReport(Unknown Source)
	at org.apache.hadoop.hdfs.protocolPB.DatanodeProtocolClientSideTranslatorPB.blockReport(DatanodeProtocolClientSideTranslatorPB.java:215)
	at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.blockReport(BPServiceActor.java:388)
	at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.offerService(BPServiceActor.java:697)
	at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:841)
	at java.lang.Thread.run(Thread.java:748)

因为是从已安装好运行过的hadoop克隆过来的可能是storage ID冲突所以删除目录
/tmp/hadoop-root/dfs/data/current
不行就从新格式化试试

报如下错误

2019-09-23 13:21:17,975 INFO org.apache.hadoop.hdfs.server.common.Storage: Lock on /tmp/hadoop-root/dfs/data/in_use.lock acquired by nodename 28942@hadoop.master
2019-09-23 13:21:17,977 WARN org.apache.hadoop.hdfs.server.common.Storage: Failed to add storage directory [DISK]file:/tmp/hadoop-root/dfs/data/
java.io.IOException: Incompatible clusterIDs in /tmp/hadoop-root/dfs/data: namenode clusterID = CID-c73851ae-8abf-464f-8a86-fa3ca3ce0e80; datanode clusterID = CID-e4f97b33-5abd-477d-a983-4faac8d5a221
	at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:760)
	at org.apache.hadoop.hdfs.server.datanode.DataStorage.loadStorageDirectory(DataStorage.java:293)
	at org.apache.hadoop.hdfs.server.datanode.DataStorage.loadDataStorage(DataStorage.java:409)
	at org.apache.hadoop.hdfs.server.datanode.DataStorage.addStorageLocations(DataStorage.java:388)
	at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:556)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:1649)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:1610)
	at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:388)
	at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:280)
	at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:816)
	at java.lang.Thread.run(Thread.java:748)
2019-09-23 13:21:17,980 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool <registering> (Datanode Uuid e897913a-a208-4f08-8cc6-1e0d30505541) service to hadoop.master/192.168.158.30:8020. Exiting. 
java.io.IOException: All specified directories have failed to load.
	at org.apache.hadoop.hdfs.server.datanode.DataStorage.recoverTransitionRead(DataStorage.java:557)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.initStorage(DataNode.java:1649)
	at org.apache.hadoop.hdfs.server.datanode.DataNode.initBlockPool(DataNode.java:1610)
	at org.apache.hadoop.hdfs.server.datanode.BPOfferService.verifyAndSetNamespaceInfo(BPOfferService.java:388)
	at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.connectToNNAndHandshake(BPServiceActor.java:280)
	at org.apache.hadoop.hdfs.server.datanode.BPServiceActor.run(BPServiceActor.java:816)
	at java.lang.Thread.run(Thread.java:748)
2019-09-23 13:21:17,980 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Ending block pool service for: Block pool <registering> (Datanode Uuid e897913a-a208-4f08-8cc6-1e0d30505541) service to hadoop.master/192.168.158.30:8020
2019-09-23 13:21:18,081 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Removed Block pool <registering> (Datanode Uuid e897913a-a208-4f08-8cc6-1e0d30505541)
2019-09-23 13:21:20,081 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Exiting Datanode
2019-09-23 13:21:20,087 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: SHUTDOWN_MSG:

网上查找解决方案发现如下解决办法：

删除目录
`/tmp/hadoop-root/dfs/data/current`

该问题因为多次对namenode进行format，每一次format主节点NameNode产生新的clusterID、namespaceID，于是导致主节点的clusterID、namespaceID与各个子节点DataNode不一致。当format过后再启动hadoop，hadoop尝试创建新的current目录，但是由于已存在current目录，导致创建失败，最终引起DataNode节点的DataNode进程启动失败，从而引起hadoop集群完全启动失败。因此可以通过直接删除数据节点DataNode的current文件夹，进行解决该问题。