最全Hadoop大数据集群搭建（超详细）_hadoop集群搭建(1)，2024年最新阿里P7大牛整理

最新推荐文章于 2024-10-01 01:39:24 发布

2301_79772893

最新推荐文章于 2024-10-01 01:39:24 发布

阅读量3.9k

点赞数 12

分类专栏：程序员文章标签：大数据面试学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79772893/article/details/138741306

版权

程序员专栏收录该内容

184 篇文章 2 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

mkdir -p /export/data

mkdir -p /export/servers

mkdir -p /export/software

第二步：虚拟机克隆

搭建集群需要3个虚拟机，hadoop01，hadoop02，hadoop03，已经安装了hadoop01，剩下两个需要用到虚拟机克隆

相同的方法克隆hadoop03

第三步：网络配置

三个虚拟机的ip分别为

192.168.121.134 hadoop01

192.168.121.135 hadoop02

192.168.121.136 hadoop03

1.配置网络的准备工作

编辑-虚拟网络编辑器

然后点击确定，再点确定

设置本机网络（win10举例）

2. 开启3台虚拟机，配置主机名

vi /etc/hostname

修改hadoop02和hadoop03的hostname为 hadoop02 和 hadoop03

（注：这是CentOS7的修改方法，CentOS6修改/etc/sysconfig/network）

3. 配置ip映射

vi /etc/hosts

在文件末尾添加以下3行

192.168.121.134 hadoop01

192.168.121.135 hadoop02

192.168.121.136 hadoop03

同时修改hadoop02和hadoop03

4. 修改静态ip

在hadoop01上（如果文件中的参数都没有引号“”，则需要去掉）

vi /etc/sysconfig/network-scripts/ifcfg-ens33

BOOTPROTO=“static”

ONBOOT=“yes”

新增以下ip设置

IPADDR=“192.168.121.134”

NETMASK=“255.255.255.0”

GATEWAY=“192.168.121.2”

DNS1=“114.114.114.114”

然后在hadoop02和hadoop03上分别设置成121.135和121.136

5. 重启虚拟机

reboot

完成重启后测试下网络是否OK，命令ping www.baidu.com

第四步：ssh服务配置

确认ssh服务已开启（默认已开启）

ps -e | grep sshd

三台机器生成公钥和私钥

ssh-keygen -t rsa

执行该命令，按3下回车

拷贝公钥到另外两台机器

在hadoop01，hadoop02和hadoop03上分别执行以下三行

ssh-copy-id hadoop01

ssh-copy-id hadoop02

ssh-copy-id hadoop03

都执行完毕后，三台机器就可以使用ssh连接而无需输入密码了

测试一下：

在hadoop02上输入ssh hadoop03，能够免密登录

然后exit退出回来hadoop02

========================== 快照 ==================================

第五步：安装JDK

1. 下载JDK

在jave网站上下载

Java Archive Downloads - Java SE 8

jdk-8u161-linux-x64.tar.gz（网站上下载需要注册，可以从群共享里获取）

2. 安装JDK

上传JDK到linux（SecureCRT工具里使用SecureFXPortable，MobaxTerm里使用自带的tftp功能，注意上传位置，是 /export/software/）

使用MobaxTerm里使用自带的tftp功能

执行解压缩操作：解压到 /export/servers

cd /export/software/

tar -zxvf jdk-8u161-linux-x64.tar.gz -C /export/servers/

cd /export/servers/

重命名为jdk

mv jdk1.8.0_161/ jdk

3. 配置JDK环境变量

vim /etc/profile

添加如下内容

export JAVA_HOME=/export/servers/jdk

export PATH= $P A T H :$ JAVA_HOME/bin

export CLASSPATH=.: $JAVA\_HOME/lib/dt.jar:$ JAVA_HOME/lib/tools.jar

修改完成之后记得使用命令source /etc/profile，使修改生效

4. JDK环境验证

java -version

第六步：安装Hadoop

1. 下载Hadoop 3.1.3

Index of /dist/hadoop/common

2. 安装Hadoop

同样通过mobaxterm的上的SFTP功能（或其他工具）上传到/export/software目录下，然后解压到/export/servers目录下

cd /export/software

mobaxterm的上的SFTP功能

tar -zxvf hadoop-3.1.3.tar.gz -C /export/servers/

3. 配置Hadoop系统环境变量

vim /etc/profile

配置环境变量

export HADOOP_HOME=/export/servers/hadoop-3.1.3

export PATH=: $HADOOP\_HOME/bin:$ HADOOP_HOME/sbin:$PATH

同时添加hadoop为root用户，否则启动的HDFS的时候可能会报错

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

执行source /etc/profile命令,让配置生效

4. 验证Hadoop环境

hadoop version

========================== 快照 ==================================

第七步：Hadoop集群配置

集群配置如下：

1、配置Hadoop集群主节点

（1）修改hadoop-env.sh文件

cd /export/servers/hadoop-3.1.3/etc/hadoop

vim hadoop-env.sh

找到export JAVA_HOME的位置修改

export JAVA_HOME=/export/servers/jdk

（2）修改core-site.xml文件

主要是配置主进程NameNode的运行主机和运行生成数据的临时目录

vim core-site.xml

写入以下内容

fs.defaultFS

hdfs://hadoop01:9000

hadoop.tmp.dir

/export/servers/hadoop-3.1.3/tmp

（3）修改hdfs-site.xml文件

设置HDFS数据块的副本数量以及second namenode的地址

vim hdfs-site.xml

写入以下内容

dfs.replication

3

dfs.namenode.secondary.http-address

hadoop02:50090

（4）修改mapred-site.xml文件

设置MapReduce的运行时框架

vim mapred-site.xml

写入以下内容

mapreduce.framework.name

yarn

（5）修改yarn-site.xml文件

设置yarn集群的管理者

vim yarn-site.xml

写入以下内容

yarn.resourcemanager.hostname

hadoop01

yarn.nodemanager.aux-services

mapreduce_shuffle

（6）修改workers文件

该文件用来记录从节点的主机名（hadoop 2.x中为slaves文件）

打开该配置文件，先删除里面的内容（默认localhost），然后配置如下内容。

vim workers

删除默认内容，添加以下内容

hadoop01

hadoop02

hadoop03

2、将集群主节点的配置文件分发到其他子节点

完成Hadoop集群主节点hadoop01的配置后，还需要将系统环境配置文件、JDK安装目录和Hadoop安装目录分发到其他子节点hadoop02和hadoop03上，具体指令：

scp /etc/profile hadoop02:/etc/profile

scp /etc/profile hadoop03:/etc/profile

scp -r /export/ hadoop02:/

scp -r /export/ hadoop03:/

传完之后要在hadoop02和hadoop03上分别执行 source /etc/profile 命令，来刷新配置文件

如果使用scp时需要输入密码，请重新检查ssh配置！

第八步：格式化文件系统

初次启动HDFS集群时，必须对主节点进行格式化处理。在hadoop01上执行

格式化文件系统指令如下：

hdfs namenode -format

不要多次格式化主节点！

第九步：启动和关闭hadoop集群

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

export/ hadoop03:/

传完之后要在hadoop02和hadoop03上分别执行 source /etc/profile 命令，来刷新配置文件

如果使用scp时需要输入密码，请重新检查ssh配置！

第八步：格式化文件系统

初次启动HDFS集群时，必须对主节点进行格式化处理。在hadoop01上执行

格式化文件系统指令如下：

hdfs namenode -format

不要多次格式化主节点！

第九步：启动和关闭hadoop集群

[外链图片转存中…(img-GiZXL9nV-1715468219335)]
[外链图片转存中…(img-btxJeGso-1715468219336)]
[外链图片转存中…(img-vcceX9Il-1715468219336)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

关注

12
点赞
踩
65

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。