nnnnnnnnnnn

2301_80917747

于 2024-09-03 19:45:06 发布

阅读量870

点赞数 6

文章标签： python

本文链接：https://blog.csdn.net/2301_80917747/article/details/141870101

版权

安装Hadoop完全分布式：首先要安装JDK和MYSQL，安装完成JDK才可以安装hadoop
配置IP
BOOTPROTO=static # 将 dhcp 换成 static
ONBOOT=yes # 将 no 换成 yes
IPADDR=192.168.217.80 # 静态 IP
GATEWAY=192.168.217.1 # 默认网关（不需要改动）
DNS1=114.114.114.114
输入：service network restart
配置host
输入：vi /etc/hosts
追加配置：
192.168.217.80 master
192.168.217.81 slave01
192.168.217.82 slave02
输入：scp -r /etc/hosts slave01:/etc/hosts
scp -r /etc/hosts slave02:/etc/hosts

1）将hadoop安装包上传到虚拟机中
2）解压hadoop安装包到指定位置：
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/soft
3）进入/opt/soft下，对解压的目录进行重命名
cd /opt/soft
mv hadoop-3.1.3/ hadoop
4）配置环境变量：
vim /etc/profile 这个是生效的
/etc/profile.d/hadoop-eco.sh 这个要删除
加入：
export HADOOP_HOME=/opt/soft/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile
5）输入hadoop version查看一下或者配置完Hadoop配置文件后在查看
6）进入到hadoop中配置文件的目录，修改5个配置文件：
cd /opt/soft/hadoop/etc/hadoop/
1》hadoop-env.sh
加入jdk的路径配置
export JAVA_HOME=/opt/soft/jdk

   export HDFS_NAMENODE_USER=root
   export HDFS_DATANODE_USER=root
   export HDFS_SECONDARYNAMENODE_USER=root
   export YARN_RESOURCEMANAGER_USER=root
   export YARN_NODEMANAGER_USER=root
【注意：下面几个配置到环境变量中也是可以的】

2》core-site.xml（配置namenode的通信地址和hadoop数据文件存放的目录）
在<configuration>标签之间加入下列内容：
<property>
       <name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
   </property>
   <property>
       <name>hadoop.tmp.dir</name>
       <value>/opt/data/hadoop</value>
   </property>
【注意：上面的master是作为namenode机器的主机名】
【注意：hadoop.tmp.dir这个目录不能存在，启动时会自动创建的】

3》hdfs-site.xml（数据存入hdfs后产生的副本数）
在<configuration>标签之间加入下列内容：
<property>
<name>dfs.replication</name>
<value>3</value>
</property>

4》mapred-site.xml（执行mapreduce使用yarn资源调度来进行）
在<configuration>标签之间加入下列内容：
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

5》yarn-site.xml（配置resnourcemanager资源调度管理者的机器是谁、最下面两个mem-check是关闭内存检测功能）
在<configuration>标签之间加入下列内容：

<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>

【注意：master是主机名】

6》workers【注意配置datanode的节点机器】
将里面原来的localhost干掉，添加三台机器的主机名
master
slave01
slave02

7》将配置好的hadoop远程分发给另外两台机器：
scp -r /opt/soft/hadoop slave01:/opt/soft
scp -r /opt/soft/hadoop slave02:/opt/soft

scp /etc/profile slave01:/etc/
scp /etc/profile slave02:/etc/

在slave01机器上：source /etc/profile
在slave02机器上：source /etc/profile
8》格式化namenode
hdfs namenode -format
【如果需要重置hadoop文件系统重新格式化的话，那么将core-site.xml中配置的那个hadoop.tmp.dir目录给删了，让其重新创建】

9》启动hadoop集群（在主节点上）
1>一键启动所有：start-all.sh
2>分开启动：
a》启动hdfs： start-dfs.sh
b》启动yarn： start-yarn.sh

停止hadoop，在主节点上执行：stop-all.sh

10》检测是否成功：
1）在主节点上输入 jps：
namenode
datanode
nodemanager
resourcemanager
seccondarynamendoe

在其他从机节点上输入jps：
datanode
nodemanager
2）打开浏览器，输入：http://主节点虚拟机IP:9870 确认是否可以打开hadoop的webUI管理界面