Hadoop 3，最新大数据开发面试题整理

最新推荐文章于 2024-07-25 09:48:00 发布

2401_84164546

最新推荐文章于 2024-07-25 09:48:00 发布

阅读量924

点赞数 22

分类专栏：程序员文章标签：大数据 hadoop 分布式

本文链接：https://blog.csdn.net/2401_84164546/article/details/137704657

版权

程序员专栏收录该内容

29 篇文章 0 订阅

订阅专栏

4.2 MapReduce+YARN 初体验

4.2.1 执行 Hadoop 官方自带的 MapReduce 案例

一、集群简介

Hadoop 集群包括两个集群：HDFS 集群、YARN 集群。两个集群逻辑上分离、通常物理上在一起；两个集群都是标准的主从架构集群。

逻辑上分离

两个集群互相之间没有依赖、互不影响

物理上在一起

某些角色进程往往部署在同一台物理服务器上

MapReduce 集群呢？

MapReduce 是计算框架、代码层面的组件，没有集群之说

二、Hadoop 集群部署方式

三、集群安装

3.1 集群角色规划

集群模式主要用于生产环境部署，需要多台主机，并且这些主机之间可以相互访问。本次是在 Centos 7.6 搭建集群模式，以三台主机为例，以下是集群规划：


各节点 IP	各节点名称	运行角色	各节点资源规划
192.168.170.136	hadoop01	NameNode、DataNode、ResourceManager、NodeManager	2 cpu / 4 G
192.168.170.137	hadoop02	SecondaryNamenode、DataNode 、NodeManager	2 cpu / 4 G
192.168.170.138	hadoop03	DataNode 、NodeManager	2 cpu / 4 G

3.2 服务器基础环境准备

3.2.1 环境初始化

给三台机器进行环境初始化，特别是需要做好 Hosts 映射：CentOS 7 初始化系统_centos7初始化_Stars.Sky的博客-CSDN博客

3.2.2 ssh 免密登录（在 hadoop01 上执行）

# 4 个 回车，生成公钥、私钥
[root@hadoop01 ~]# ssh-keygen 

# 推送到各个节点
[root@hadoop01 ~]# ssh-copy-id root@hadoop01
[root@hadoop01 ~]# ssh-copy-id root@hadoop02
[root@hadoop01 ~]# ssh-copy-id root@hadoop03

3.2.3 各个节点上安装 JDK 1.8 环境

Linux 部署 JDK+MySQL+Tomcat 详细过程_一键部署jdk mysql tomcat_Stars.Sky的博客-CSDN博客

3.3 安装 Hadoop

hadoop 3.2.4 官方下载地址：Apache Downloads

# 创建统一工作目录（3 台机器）
[root@hadoop01 ~]# mkdir -p /bigdata/hadoop/server    # 软件安装路径
[root@hadoop01 ~]# mkdir -p /bigdata/hadoop/data      # 数据存储路径
[root@hadoop01 ~]# mkdir -p /bigdata/softwares        # 安装包存放路径

# 上传、解压安装包（hadoop01）
[root@hadoop01 ~]# cd /bigdata/softwares/
[root@hadoop01 /bigdata/softwares]# ls
hadoop-3.2.4.tar.gz
[root@hadoop01 /bigdata/softwares]# tar -zxvf hadoop-3.2.4.tar.gz -C /bigdata/hadoop/server/

3.4 Hadoop安装包目录结构

[root@hadoop01 /bigdata/softwares]# cd /bigdata/hadoop/server/
[root@hadoop01 /bigdata/hadoop/server]# ls
hadoop-3.2.4
[root@hadoop01 /bigdata/hadoop/server]# cd hadoop-3.2.4/
[root@hadoop01 /bigdata/hadoop/server/hadoop-3.2.4]# ls
bin  etc  include  lib  libexec  LICENSE.txt  NOTICE.txt  README.txt  sbin  share

3.5 编辑Hadoop 配置文件

3.5.1 hadoop-env.sh

文件中设置的是 Hadoop 运行时需要的环境变量。JAVA_HOME 是必须设置的，即使我们当前的系统中设置了 JAVA_HOME，它也是不认识的，因为 Hadoop 即使是在本机上执行，它也是把当前的执行环境当成远程服务器。

[root@hadoop01 /bigdata/hadoop/server/hadoop-3.2.4/etc/hadoop]# pwd
/bigdata/hadoop/server/hadoop-3.2.4/etc/hadoop 

# 在文件最后面直接添加下面内容
[root@hadoop01 /bigdata/hadoop/server/hadoop-3.2.4/etc/hadoop]# vim hadoop-env.sh
# 配置 JAVA_HOME
export JAVA_HOME=/usr/java/jdk1.8.0_381
# 设置用户以执行对应角色 shell 命令
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

3.5.2 core-site.xml

hadoop 的核心配置文件，有默认的配置项 core-default.xml。core-default.xml 与 core-site.xml 的功能是一样的，如果在 core-site.xml 里没有配置的属性，则会自动会获取 core-default.xml 里的相同属性的值。

[root@hadoop01 /bigdata/hadoop/server/hadoop-3.2.4/etc/hadoop]# vim core-site.xml
<configuration>
<!-- 默认文件系统的名称。通过 URI 中 schema 区分不同文件系统。-->
<!-- file:///本地文件系统 hdfs:// hadoop分布式文件系统 gfs://。-->
<!-- hdfs 文件系统访问地址：http://nn_host:8020。-->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://hadoop01:8020</value>
</property>
<!-- hadoop 本地数据存储目录 format 时自动生成 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/bigdata/hadoop/data/tmp</value>
</property>
<!-- 在 Web UI 访问 HDFS 使用的用户名。-->
<property>
    <name>hadoop.http.staticuser.user</name>
    <value>root</value>
</property>
</configuration>

3.5.3 hdfs-site.xml

HDFS 的核心配置文件，主要配置 HDFS 相关参数，有默认的配置项 hdfs-default.xml。hdfs-default.xml 与 hdfs-site.xml 的功能是一样的，如果在 hdfs-site.xml 里没有配置的属性，则会自动会获取 hdfs-default.xml 里的相同属性的值。

[root@hadoop01 /bigdata/hadoop/server/hadoop-3.2.4/etc/hadoop]# vim hdfs-site.xml 
<configuration>
<!-- 设定 SNN 运行主机和端口 -->
<property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>hadoop02:9868</value>
</property>
</configuration>

3.5.4 mapred-site.xml

MapReduce 的核心配置文件，Hadoop 默认只有个模板文件 mapred-site.xml.template，需要使用该文件复制出来一份 mapred-site.xml 文件。

[root@hadoop01 /bigdata/hadoop/server/hadoop-3.2.4/etc/hadoop]# vim mapred-site.xml 
<configuration>
<!-- mr 程序默认运行方式。yarn 集群模式 local 本地模式-->
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>
<!-- jobhistory 服务配置 注意 19888 是 web ui 访问端口 -->
<property>
  <name>mapreduce.jobhistory.address</name>
  <value>hadoop01:10020</value>
</property>
<property>
  <name>mapreduce.jobhistory.webapp.address</name>
  <value>hadoop01:19888</value>
</property>
<!-- MR App Master 环境变量。-->
<property>
  <name>yarn.app.mapreduce.am.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<!-- MR MapTask 环境变量。-->
<property>
  <name>mapreduce.map.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<!-- MR ReduceTask 环境变量。-->
<property>
  <name>mapreduce.reduce.env</name>
  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
</configuration>

3.5.5 yarn-site.xml

YARN 的核心配置文件，在该文件中的标签中添加以下配置。

[root@hadoop01 /bigdata/hadoop/server/hadoop-3.2.4/etc/hadoop]# vim yarn-site.xml 

<!-- yarn 集群主角色 RM 运行机器。-->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>hadoop01</value>
</property>
<!-- NodeManager 上运行的附属服务。需配置成 mapreduce_shuffle,才可运行 MR 程序。-->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<!-- 每个容器请求的最小内存资源（以MB为单位）。-->
<property>
  <name>yarn.scheduler.minimum-allocation-mb</name>
  <value>512</value>
</property>
<!-- 每个容器请求的最大内存资源（以MB为单位）。-->
<property>
  <name>yarn.scheduler.maximum-allocation-mb</name>
  <value>2048</value>
</property>
<!-- 容器虚拟内存与物理内存之间的比率。-->
<property>
  <name>yarn.nodemanager.vmem-pmem-ratio</name>
  <value>4</value>
</property>
<!-- 开启 yarn 日志聚集功能，收集每个容器的日志集中存储在一个地方 -->
<property>
  <name>yarn.log-aggregation-enable</name>
  <value>true</value>
</property>
<!-- 日志保留时间设置为一天 -->
<property>
  <name>yarn.log-aggregation.retain-seconds</name>
  <value>86400</value>
</property>
<property>
  <name>yarn.log.server.url</name>
  <value>http://hadoop01:19888/jobhistory/logs</value>
</property>

3.5.6 workers

workers 文件里面记录的是集群主机名。一般有以下两种作用：

配合一键启动脚本如 start-dfs.sh、stop-yarn.sh 用来进行集群启动。这时候 slaves 文件里面的主机标记的就是从节点角色所在的机器。
可以配合 hdfs-site.xml 里面 dfs.hosts 属性形成一种白名单机制。

dfs.hosts 指定一个文件，其中包含允许连接到 NameNode 的主机列表。必须指定文件的完整路径名，那么所有在 workers 中的主机才可以加入的集群中。如果值为空，则允许所有主机。

[root@hadoop01 /bigdata/hadoop/server/hadoop-3.2.4/etc/hadoop]# vim workers 
hadoop01
hadoop02
hadoop03

3.6 分发同步安装包

在 hadoop01 机器上将 Hadoop 安装包 scp 同步到其他机器：

[root@hadoop01 /bigdata/hadoop]# cd /bigdata/hadoop/server/
[root@hadoop01 /bigdata/hadoop/server]# scp -r hadoop-3.2.4 root@hadoop02:/bigdata/hadoop/server/
[root@hadoop01 /bigdata/hadoop/server]# scp -r hadoop-3.2.4 root@hadoop03:/bigdata/hadoop/server/

3.7 配置Hadoop环境变量

在三台机器上配置 Hadoop 环境变量：

[root@hadoop01 /bigdata/hadoop/server]# vim /etc/profile
# hadoop
export HADOOP_HOME=/bigdata/hadoop/server/hadoop-3.2.4/
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

# 重新加载环境变量
[root@hadoop01 /bigdata/hadoop/server]# source /etc/profile

# 验证环境变量是否生效
[root@hadoop01 /bigdata/hadoop/server]# hadoop

3.8 NameNode format（格式化操作）

首次启动 HDFS 时，必须对其进行格式化操作。format 本质上是初始化工作，进行 HDFS 清理和准备工作。

# 仅在 hadoop01 上执行
[root@hadoop01 ~]# hdfs namenode -format

[root@hadoop01 ~]# ll /bigdata/hadoop/data/tmp/dfs/name/current/
总用量 16
-rw-r--r-- 1 root root 396 8月  31 17:04 fsimage_0000000000000000000
-rw-r--r-- 1 root root  62 8月  31 17:04 fsimage_0000000000000000000.md5
-rw-r--r-- 1 root root   2 8月  31 17:04 seen_txid
-rw-r--r-- 1 root root 218 8月  31 17:04 VERSION

fsimage_0000000000000000000：这是文件系统镜像（File System Image），包含了HDFS的整个文件系统结构（如目录和文件元数据）的一个快照。
fsimage_0000000000000000000.md5：这是与fsimage文件对应的MD5校验和，用于验证文件完整性。
seen_txid：这个文件保存了NameNode最后一次启动后见到（即处理过）的最大事务ID。
VERSION：这个文件包含了与NameNode相关的各种版本和配置信息，比如Hadoop的版本号，布局版本等。

3.9 Hadoop集群启动关闭

3.9.1 手动逐个进程启停

每台机器上每次手动启动关闭一个角色进程。

HDFS 集群

hdfs --daemon start namenode|datanode|secondarynamenode

hdfs --daemon stop  namenode|datanode|secondarynamenode

YARN 集群

yarn --daemon start resourcemanager|nodemanager

yarn --daemon stop  resourcemanager|nodemanager

3.9.2 shell脚本一键启停

在 hadoop01 上，使用软件自带的 shell 脚本一键启动。前提：配置好机器之间的 SSH 免密登录和 workers 文件。

HDFS 集群

start-dfs.sh

stop-dfs.sh

YARN 集群

start-yarn.sh

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

-1712966128644)]
[外链图片转存中…(img-8IwcNp8z-1712966128645)]
[外链图片转存中…(img-lCc0mqRs-1712966128645)]

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）
[外链图片转存中…(img-AIPqfAuA-1712966128645)]

2401_84164546

关注

22
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 3，最新大数据开发面试题整理

Hadoop 集群包括两个集群：HDFS 集群、YARN 集群。两个集群逻辑上分离、通常物理上在一起；两个集群都是标准的主从架构集群。逻辑上分离两个集群互相之间没有依赖、互不影响物理上在一起某些角色进程往往部署在同一台物理服务器上MapReduce 集群呢？MapReduce 是计算框架、代码层面的组件，没有集群之说。
复制链接

扫一扫