大数据平台搭建——hadoop集群（基于CentOS-7）的搭建_基于centos hadoop搭建

最新推荐文章于 2024-09-03 17:44:57 发布

2401_84181309

最新推荐文章于 2024-09-03 17:44:57 发布

阅读量719

点赞数 30

分类专栏： 2024年程序员学习文章标签：大数据 hadoop centos

本文链接：https://blog.csdn.net/2401_84181309/article/details/137794194

版权

2024年程序员学习专栏收录该内容

63 篇文章 0 订阅

订阅专栏

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip204888 （备注大数据）

正文

（3）保存退出后输入：source /etc/profile 让修改的配置文件生效；

（4）验证是否配置成功，输入：java -version 如果出现下图信息说明配置成功。

3、修改hadoop中的相关配置文件信息（最重要）

（1）新建几个目录用来存储修改配置文件后的相关信息，在终端中输入以下命令：

mkdir /root/hadoop
mkdir /root/hadoop/tmp
mkdir /root/hadoop/var
mkdir /root/hadoop/dfs
mkdir /root/hadoop/dfs/name
mkdir /root/hadoop/dfs/data

（2）切换到 etc/hadoop 下，修改一系列配置文件：

输入：vi core-site.xml 修改文件，在文件中的和添加以下内容（注：黄色部分要改成自己的主机名）

hadoop.tmp.dir

/root/hadoop/tmp

Abase for other temporary directories.

fs.default.name

hdfs://bigdata2021master:9000

输入：vi hadoop-env.sh 修改文件，找到文件中的以下内容（红框的内容是文件中的原文内容，后部分要自己根据存储的jdk、hadoop文件路径进行修改），并修改成以下内容：

输入：vi hdfs-site.xml 修改文件，在文件中的和添加以下内容：

dfs.name.dir

/root/hadoop/dfs/name

Path on the local filesystem where theNameNode stores the namespace and transactions logs persistently.

dfs.data.dir

/root/hadoop/dfs/data

Comma separated list of paths on the localfilesystem of a DataNode where it should store its blocks.

dfs.replication

2 #表示副节点的个数

dfs.permissions

false

need not permissions

输入：mapred-site.xml 修改文件，在文件中的和添加以下内容（注：黄色部分要改成自己的主机名）

mapred.job.tracker

bigdata2021master:49001

mapred.local.dir

/root/hadoop/var

mapreduce.framework.name

yarn

输入：yarn-site.xml 修改文件，在文件中的和添加以下内容（注：黄色部分要改成自己的主机名）

yarn.resourcemanager.hostname

bigdata2021master

The address of the applications manager interface in the RM.

yarn.resourcemanager.address

${yarn.resourcemanager.hostname}:8032

The address of the scheduler interface.

yarn.resourcemanager.scheduler.address

${yarn.resourcemanager.hostname}:8030

The http address of the RM web application.

yarn.resourcemanager.webapp.address

${yarn.resourcemanager.hostname}:8088

The https adddress of the RM web application.

yarn.resourcemanager.webapp.https.address

${yarn.resourcemanager.hostname}:8090

yarn.resourcemanager.resource-tracker.address

${yarn.resourcemanager.hostname}:8031

The address of the RM admin interface.

yarn.resourcemanager.admin.address

${yarn.resourcemanager.hostname}:8033

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.scheduler.maximum-allocation-mb

2048

每个节点可用内存,单位MB,默认8182MB

yarn.nodemanager.vmem-pmem-ratio

2.1

yarn.nodemanager.resource.memory-mb

2048

yarn.nodemanager.vmem-check-enabled

false

输入：vi workers 修改文件配置，在该文件中，加上三个机器的用户名：

四、克隆两个子节点

1、克隆虚拟机

（1）选择对应左侧虚拟机的名称，右击选择管理–>克隆；

（2）接下来直接选择默认选项即可，但注意其中一步必须选择如下图的选项。

2、修改子节点机器的相关配置

因为克隆机器后的两个子节点和主机点的信息完全一致，因此要把两个子节点的用户名、ip地址根据之前修改的hosts文件改掉，方法和前面一致。

♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣

特别说明：有的时候需要用scp命令将主机上的hadoop文件传输到副机上去，这里可以先新建两个虚拟机并且和前面一样配置好相关信息，再在终端中输入：scp -r 源hadoop文件路径机器用户名：目标路径位置后，即可传输，比较麻烦，建议没有要求的情况下使用克隆虚拟机的方法。

五、设置免密登录（三个节点都需要进行此操作）

1、关闭防火墙和禁止启动防火墙

（1）关闭防火墙，终端中输入：systemctl stop firewalld.service

（2）关闭开机时自动开启防火墙：systemctl disable firewalld.service

2、生成密钥

在终端中输入：ssh-keygen -t rsa ，一直按回车键即可

3、分配密钥

（1）在终端中输入以下指令（中途根据提示输入yes、密码）：

ssh-copy-id bigdata2021master

ssh-copy-id bigdata2021slave1

ssh-copy-id bigdata2021slave2

（2）验证是否能够免密成功登录，终端输入：ssh 机器名称，若能够成功登录其他机器则免密登陆设置成功

六、启动hadoop集群

1、格式化hadoop集群

（1）切换到下载的hadoop文件中的 bin 目录下

（2）格式化hadoop集群，在终端中输入：./hadoop namenode -format ，若在 /root/hadoop/dfs/name中出现一个current目录并有一些列文件，即表示格式化成功，注意不要多次格式化会出错。

（3）修改下列启动和停止集群的配置文件（在主节点修改即可）

切换到下载的hadoop文件下的 /sbin目录下修改文件
在start-dfs.sh、stop-dfs.sh 中开头中加上内容（用vi命令操作）：

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

op集群，在终端中输入：./hadoop namenode -format ，若在 /root/hadoop/dfs/name中出现一个current目录并有一些列文件，即表示格式化成功，注意不要多次格式化会出错。

（3）修改下列启动和停止集群的配置文件（在主节点修改即可）

切换到下载的hadoop文件下的 /sbin目录下修改文件
在start-dfs.sh、stop-dfs.sh 中开头中加上内容（用vi命令操作）：

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化的资料的朋友，可以添加V获取：vip204888 （备注大数据）
[外链图片转存中…(img-M22rPt0g-1713183808684)]

2401_84181309

关注

30
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
大数据平台搭建——hadoop集群（基于CentOS-7）的搭建_基于centos hadoop搭建

若在 /root/hadoop/dfs/name中出现一个current目录并有一些列文件，即表示格式化成功，注意不要多次格式化会出错。，若在 /root/hadoop/dfs/name中出现一个current目录并有一些列文件，即表示格式化成功，注意不要多次格式化会出错。因为克隆机器后的两个子节点和主机点的信息完全一致，因此要把两个子节点的用户名、ip地址根据之前修改的hosts文件改掉，方法和前面一致。（3）修改下列启动和停止集群的配置文件（在主节点修改即可）2 #表示副节点的个数。
复制链接

扫一扫