Hadoop搭建教程（自用）

最新推荐文章于 2024-04-28 04:40:43 发布

裔飍

最新推荐文章于 2024-04-28 04:40:43 发布

阅读量681

点赞数 22

文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/nanfeng_ttns/article/details/136588569

版权

本文详细介绍了如何在VMware环境中设置网络配置、修改主机名、固定IP、关闭防火墙、配置SSH免密登录、同步时间、创建目录、安装和配置JDK、Hadoop，以及启动Hadoop集群的过程。

摘要由CSDN通过智能技术生成

一、设置VMware网段

1、打开VMware点击编辑选项里面的虚拟网络编辑器

2、点击更改设置找到VMnet8

3、将VMnet8的子网ip设置为：192.168.88.0

4、点击NAT设置将网关设置为：192.168.88.2

二、修改主机名和固定IP

1、修改主机名

# master更改
hostnamectl set -hostname master
# slave1更改
hostnamectl set -hostname slave1
# slave2更改
hostnamectl set -hostname slave2

2.修改IP地址

vi /etc/sysconfig/network-scripts/ifcfg-ens33
#将BOOTPROTO="static"
#在文件最后添加
IPADDR="192.168.88.101"
NETMASK="255.255.255.0"
GATEWAY="192.168.88.2"
DNS1="192.168.88.2"

3.关闭网卡

systemctl stop network

4.重启网卡

systemctl start network

同样的操作启动slave1、slave2

修改slave1主机名为slave1 ,设置ip为192.168.88.102

修改slave2主机名为slave2 ,设置ip为192.168.88.103

三、关闭防火墙

临时关闭防火墙

systemctl stop firewalld

查看防火墙状态

systemctl status firewalld

永久关闭防火墙

systemctl disable firewalld

四、配置主机名映射

1、在windows中修改hosts文件

找到C:\Windows\System32\drivers\etc下的hosts文件，打开在文件最后添加

192.168.88.101 master
192.168.88.102 slave1
192.168.88.103 slave2

2、在3台Linux的/etc/hosts文件中修改

vi /etc/hosts
# 在文件中加入
192.168.88.101 master
192.168.88.102 slave1
192.168.88.103 slave2

五、配置SSH免密登录

1、在每一台Linux机器里都执行

ssh-keygen
ssh-copy-id master
ssh-copy-id slave1
ssh-copy-id slave2

2、执行完毕后，master、slave1、slave2之间将完成root用户之间的免密互通

六、同步时间

1、下载时间同步工具（每个节点都要操作）

yum -y install ntp ntpdate

2、同步时间

ntpdate ntp5.aliyun.com

七、创建工作目录

1、每个节点都要创建

mkdir -p /opt/module
mkdir -p /opt/software

八、安装和配置JDK

1、将jdk压缩包上传到Linux中

2、解压jdk

tar -zxvf jdk名称 -C 解压到的路径

3、配置JDK环境变量

vi /etc/profile
#在文件最后添加
export JAVA_HOME=/opt/module/jdk1.8.0_202(这里写自己的jdk路径)
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

4、重新加载环境变量

source /etc/profile

5、执行验证

java -version
javac -version

九、安装配置Hadoop

1.上传Hadoop

2、解压缩安装包

tar -zxvf Hadoop压缩包名称 -C 解压到的路径

3、进入Hadoop安装包内

cd /opt/module/hadoop-3.3.0/etc/hadoop

4、配置hadoop-env.sh文件

vi hadoop-env.sh
#在文件最后添加
Export JAVA_HOME=/opt/module/jdk1.8.0_202
Erport HDFS_NAMENODE_USER=root
Export HDFS_DATANODE_USER=root
Export HDFS_SECONDARYNAMENODE_USER=root
Export YARN_RESOURCEMANAGER_USER=root
Export YARN_NODEMANAGER_USER=root

5、配置core-site.xml文件

vi core-site.xml
# 添加到文件内
<!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:8020</value>
</property>

<!-- 设置Hadoop本地保存数据路径 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/export/data/hadoop-3.3.0</value>
</property>

<!-- 设置HDFS web UI用户身份 -->
<property>
    <name>hadoop.http.staticuser.user</name>
    <value>root</value>
</property>

<!-- 整合hive 用户代理设置 -->
<property>
    <name>hadoop.proxyuser.root.hosts</name>
    <value>*</value>
</property>

<property>
    <name>hadoop.proxyuser.root.groups</name>
    <value>*</value>
</property>

<!-- 文件系统垃圾桶保存时间 -->
<property>
    <name>fs.trash.interval</name>
    <value>1440</value>
</property>

6、配置hdfs-site.xml文件

vi hdfs-site.xml
# 在文件最后添加
<!-- 设置SNN进程运行机器位置信息 -->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>slave1:9868</value>
</property>

7、配置mapred-site.xml文件

vi mapred-site.xml
<!-- 设置MR程序默认运行模式： yarn集群模式 local本地模式 -->
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

<!-- MR程序历史服务地址 -->
<property>
  <name>mapreduce.jobhistory.address</name>
  <value>master:10020</value>
</property>
 
<!-- MR程序历史服务器web端地址 -->
<property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>master:19888</value>
</property>

<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

8、配置yarn-site.xml文件

vi yarn-site.xml
<!-- 设置YARN集群主角色运行机器位置 -->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>master</value>
</property>

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

<!-- 是否将对容器实施物理内存限制 -->
<property>
    <name>yarn.nodemanager.pmem-check-enabled</name>
    <value>false</value>
</property>

<!-- 是否将对容器实施虚拟内存限制。 -->
<property>
    <name>yarn.nodemanager.vmem-check-enabled</name>
    <value>false</value>
</property>

<!-- 开启日志聚集 -->
<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>

<!-- 设置yarn历史服务器地址 -->
<property>
    <name>yarn.log.server.url</name>
    <value>http://master:19888/jobhistory/logs</value>
</property>

<!-- 历史日志保存的时间 7天 -->
<property>
  <name>yarn.log-aggregation.retain-seconds</name>
  <value>604800</value>
</property>

9、配置workers

vi workers
#添加
master 
slave1
slave2

10、向其他节点分发配置完成的程序

#先进入Hadoop的安装路径
cd /opt/module
#向slave1分发配置完成的程序
scp -r Hadoop文件名称 root@slave1:$PWD
scp -r Hadoop文件名称 root@slave2:$PWD

11、为Hadoop添加环境变量

vi /etc/profile
# 在文件最后面添加
export HADOOP_HOME=/opt/module/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
#重新加载环境变量
source /etc/profile
#scp分发给其他节点
scp /etc/profile slave1:/etc/profile
scp /etc/profile slave2:/etc/profile

12、在每个节点输入Hadoop验证配置是否成功

hadoop

十、启动Hadoop集群

1、初始化(不要多次执行，可能会导致数据丢失)

hdfs namenode -format

2、启动集群

# 启动hdfs集群
start-dfs.sh
# 启动yarn集群
start-yarn.sh

3、使用jps查询各个节点进程是否成功

4、web页面

master:8088

master:9870

裔飍

关注

22
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
Hadoop搭建教程（自用）

Hadoop以及jdk的配置教程
复制链接

扫一扫