rpm
(英文全拼:redhat package manager) 原本是 Red Hat Linux 发行版专门用来管理 Linux 各项套件的程序,由于它遵循 GPL 规则且功能强大方便,因而广受欢迎。逐渐受到其他发行版的采用。RPM 套件管理方式的出现,让 Linux 易于安装,升级,间接提升了 Linux 的适用度。ps
(英文全拼:process status)命令用于显示当前进程的状态,类似于 windows 的任务管理器。- grep (global regular expression) 命令用于查找文件里符合条件的字符串或正则表达式。该命令用于查找内容包含指定的范本样式的文件,如果发现某文件的内容符合所指定的范本样式,预设 grep 指令会把含有范本样式的那一列显示出来。若不指定任何文件名称,或是所给予的文件名为 -,则 grep 指令会从标准输入设备读取数据。
如果没有安装,可以使用以下命令进行安装
yum install openssh-server openssh-clients
第二步,修改SSH服务配置文件
默认情况下,CentOS Stream 9不允许用户root进行远程登录,在虚拟机Hadoop2中执行vi /etc/ssh/sshd_config
命令编辑配置文件sshd_config。
PermitRootLogin yes
对于小白,这里介绍下
vi
命令的简单使用方式:使用vi命令打开文件后,输入字母i
进入插入模式 => 修改相应的文件内容 => 按**Esc**
键进入命令行模式 => 输入:
进入底行模式 => 输入x
或者wq
保存退出。如果文件修改后不想保存,进行底行模式后输入
q!
进行不保存退出。
第三步, 重启SSH服务
systemctl restart sshd
3. 克隆主机
1)关闭hadoop1
使用命令shutdown -h now
关闭hadoop1
或者
![外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传](https://img-home.csdnimg.cn/images/20230724024159.png?origin_url=images%2F
2)克隆虚拟机
克隆虚拟机hadoop2、hadoop3,以克隆hadoop2为例
->
- 完整克隆的虚拟机是通过复制原虚拟机创建完全独立的新虚拟机,不和原虚拟机共享任何资源,可以脱离原虚拟机独立使用。
- 链接克隆的虚拟机需要和原虚拟机共享同一个虚拟磁盘文件,不能脱离原虚拟机独立运行。
4. 网络设置
网络整体规划如下:
虚拟机名 | 主机名 | IP |
---|---|---|
hadoop1 | hadoop1 | 192.168.121.160 |
hadoop2 | hadoop2 | 192.168.121.161 |
hadoop3 | hadoop3 | 192.168.121.162 |
1)配置VMware Workstation网络
在VMware Workstation主界面,依次单击“编辑”→“虚拟网络编辑器…”选项,配置VMware Workstation网络。
2)配置静态IP
以hadoop1主机为例,类似配置hadoop2、 hadoop3
编辑配置文件
vi /etc/NetworkManager/system-connections/ens33.nmconnection
method=manual
address1=192.168.121.160/24,192.168.121.2
dns=114.114.114.114
修改uuid(只需要修改hadoop2、 hadoop3主机)
uuid的作用是使分布式系统中的所有元素都有唯一的标识码。
sed -i '/uuid=/c\uuid='`uuidgen`'' /etc/NetworkManager/system-connections/ens33.nmconnection
重启ens33网卡和重新加载网络配置文件
nmcli c reload
nmcli c up ens33
查看网络信息
ip a
检测网络
ping www.baidu.com
输入
ctrl
+c
退出检测
3)主机名
配置hadoop2主机名
hostnamectl set-hostname hadoop2
配置hadoop3主机名
hostnamectl set-hostname hadoop3
4)配置虚拟机SSH远程登录
① 配置putty
② 配置winscp
5)修改映射文件
在虚拟机hadoop1主机执行vi /etc/hosts
命令编辑映射文件hosts,在配置文件中添加如下内容。
192.168.121.160 hadoop1
192.168.121.161 hadoop2
192.168.121.162 hadoop3
在虚拟机hadoop1主机执行如下命令,拷贝配置到hadoop2, hadoop3
scp /etc/hosts root@hadoop2:/etc/hosts
scp /etc/hosts root@hadoop3:/etc/hosts
6) 关闭防火墙
关闭虚拟机Hadoop1、Hadoop2和Hadoop3的防火墙,分别在3台虚拟机中运行如下命令关闭防火墙并禁止防火墙开启启动。
- 关闭防火墙
systemctl stop firewalld
- 禁止防火墙开机启动
systemctl disable firewalld
5. 免密登录
在集群环境中,主节点需要频繁的访问从节点,以获取从节点的运行状态,主节点每次访问从节点时都需要通过输入密码的方式进行验证,确定密码输入正确后才建立连接,这会对集群运行的连续性造成不良影响,为主节点配置SSH免密登录功能,可以有效避免访问从节点时频繁输入密码。接下来,虚拟机hadoop1作为集群环境的主节点实现SSH免密登录。
SSH免密登录原理(原理:非对称加密算法:公钥加密(给别人)、私钥解密给自己)
1)生成密钥
在虚拟机hadoop1中执行ssh-keygen -t rsa
命令,生成密钥。
查看秘钥文件
在虚拟机hadoop1中执行ll /root/.ssh
命令查看密钥文件。
2)复制公钥文件
将虚拟机hadoop1生成的公钥文件复制到集群中相关联的所有虚拟机,实现通过虚拟机hadoop1可以免密登录虚拟机hadoop1、hdp3-2和hdp3-3。
ssh-copy-id hadoop1
ssh-copy-id hadoop2
ssh-copy-id hadoop3
3)测试免密登录
ssh hadoop1
ssh hadoop2
ssh hadoop3
6. 安装JDK
约定:软件安装包存放于
/software
,软件安装至/opt
1)创建目录
在虚拟机hadoop1中执行mkdir /software
2)上传jdk
利用winscp将jdk-8u261-linux-x64.tar.gz
上传至hadoop1的/software
目录
3)解压jdk
cd /software
ll
tar -xvf jdk-8u261-linux-x64.tar.gz -C /opt
4)配置JDK系统环境变量
在虚拟机hadoop1执行vi /etc/profile
命令编辑环境变量文件profile,在该文件的底部添加配置JDK系统环境变量的内容。
export JAVA\_HOME=/opt/jdk1.8.0_261
export PATH=$PATH:$JAVA\_HOME/bin
记得执行source /etc/profile
重新加载系统环境变量
5)验证jdk
java -version
6)同步文件
分发JDK安装目录和系统环境变量文件至hadoop2、hadoop3
scp -r /opt/jdk* root@hadoop2:/opt
scp /etc/profile root@hadoop2:/etc
scp -r /opt/jdk* root@hadoop3:/opt
scp /etc/profile root@hadoop3:/etc
二、完全分布式部署
基于完全分布式模式部署Hadoop,需要将Hadoop中HDFS和YARN的相关服务运行在不同的计算机中,我们使用已经部署好的3台虚拟机Hadoop1、Hadoop2和Hadoop3。为了避免在使用过程中造成混淆,先规划HDFS和YARN的相关服务所运行的虚拟机。
虚拟机名 | 主机名 | IP | 角色 | 服务 |
---|---|---|---|---|
hadoop1 | hadoop1 | 192.168.121.160 | master | NameNode、ResourceManager |
hadoop2 | hadoop2 | 192.168.121.161 | workers | SecondaryNameNode、DataNode、NodeManager |
hadoop3 | hadoop3 | 192.168.121.162 | workers | DataNode、NodeManager |
1. 安装Hadoop
1)解压
以解压方式安装Hadoop,将Hadoop安装到虚拟机Hadoop1的/opt
目录。
tar -xvf /software/hadoop-3.3.6.tar.gz -C /opt
2)配置环境变量
在Hadoop1执行vi /etc/profile
命令配置系统环境变量,在该文件的底部添加如下内容。
export HADOOP\_HOME=/opt/hadoop-3.3.6
export PATH=$PATH:$HADOOP\_HOME/bin:$HADOOP\_HOME/sbin
3)验证
在虚拟机Hadoop1的任意目录执行hadoop version
命令查看当前虚拟机中Hadoop的版本号。
2. 修改配置文件
配置文件 | 功能描述 |
---|---|
hadoop-env.sh | 配置Hadoop运行时的环境,确保HDFS能够正常运行NameNode、SecondaryNameNode和DataNode服务 |
yarn-env.sh | 配置YARN运行时的环境,确保YARN能够正常运行ResourceManager和NodeManager服务 |
core-site.sh | Hadoop核心配置文件 |
hdfs-site.xml | HDFS核心配置文件 |
mapred-site.xml | MapReduce核心配置文件 |
yarn-site.xml | YARN核心配置文件 |
workers | 控制从节点所运行的服务器 |
1)配置Hadoop运行时环境
在Hadoop安装目录/etc/hadoop/目录,执行vi hadoop-env.sh
命令,在hadoop-env.sh文件的底部添加如下内容。
export JAVA\_HOME=/opt/jdk1.8.0_261
export HDFS\_NAMENODE\_USER=root
export HDFS\_DATANODE\_USER=root
export HDFS\_SECONDARYNAMENODE\_USER=root
export YARN\_RESOURCEMANAGER\_USER=root
export YARN\_NODEMANAGER\_USER=root
- 指定Hadoop使用的JDK
- 指定管理NameNode、DataNode等服务的用户为root
2)配置hadoop
在Hadoop安装目录/etc/hadoop/目录,执行vi core-site.xml
命令,在core-site.xml文件中添加如下内容。
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop1:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/data/hadoop-3.3.6</value>
</property>
<property>
<name>hadoop.http.staticuser.user</name>
<value>root</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>1440</value>
</property>
注意:
- 上面的配置项要配置到
<configuration>
标签中,后面的配置项类似配置项:
- fs.defaultFS:指定HDFS的通信地址
- hadoop.tmp.dir:指定Hadoop临时数据的存储目录
- hadoop.http.staticuser.user:指定通过Web UI访问HDFS的用户root
- hadoop.proxyuser.root.hosts:允许任何服务器的root用户可以向Hadoop提交任务
- hadoop.proxyuser.root.groups:允许任何用户组的root用户可以向Hadoop提交任务
- fs.trash.interval:指定HDFS中被删除文件的存活时长为1440秒
更多参数请参考官网:https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-common/core-default.xml
3)配置HDFS
在Hadoop安装目录/etc/hadoop/目录,执行vi hdfs-site.xml
命令,在hdfs-site.xml文件中添加如下内容。
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoop2:9868</value>
</property>
配置项:
- dfs.replication:指定数据副本个数
- dfs.namenode.secondary.http-address:指定SecondaryNameNode服务的通信地址
更多参数请参考官网:https://hadoop.apache.org/docs/r3.3.6/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
4)配置MapReduce
在Hadoop安装目录/etc/hadoop/目录,执行vi mapred-site.xml
命令,在mapred-site.xml文件中添加如下内容。
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.job.ubertask.enable</name>
<value>true</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>hadoop1:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>hadoop1:19888</value>
</property>
<property>
<name>yarn.app.mapreduce.am.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.map.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
<property>
<name>mapreduce.reduce.env</name>
<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>
配置项:
- mapreduce.framework.name:MapReduce的执行模式,默认是本地模式,另外可以设置成classic(采用MapReduce1.0模式运行) 或 yarn(基于YARN框架运行).
- mapreduce.job.ubertask.enable:是否允许开启uber模式,当开启后,小作业会在一个JVM上顺序运行,而不需要额外申请资源
- mapreduce.jobhistory.address:指定MapReduce历史服务的通信地址
- mapreduce.jobhistory.webapp.address:指定通过Web UI访问MapReduce历史服务的地址
- yarn.app.mapreduce.am.env:指定MapReduce任务的运行环境
- mapreduce.map.env:指定MapReduce任务中Map阶段的运行环境
- mapreduce.reduce.env:指定MapReduce任务中Reduce阶段的运行环境
更多参数请参考官网:https://hadoop.apache.org/docs/r3.3.6/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml
5)配置YARN
在Hadoop安装目录/etc/hadoop/目录,执行vi yarn-site.xml
命令,在yarn-site.xml文件中添加如下内容。
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop1</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log.server.url</name>
<value>http://hadoop1:19888/jobhistory/logs</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
配置项:
- yarn.resourcemanager.hostname:指定ResourceManager服务运行的主机
- yarn.nodemanager.aux-services:指定NodeManager运行的附属服务
- yarn.nodemanager.pmem-check-enabled:指定是否启动检测每个任务使用的物理内存
- yarn.nodemanager.vmem-check-enabled:指定是否启动检测每个任务使用的虚拟内存
- yarn.log-aggregation-enable:指定是否开启日志聚合功能
- yarn.log.server.url:指定日志聚合的服务器
- yarn.log-aggregation.retain-seconds:指定日志聚合后日志保存的时间
更多参数请参考官网:https://hadoop.apache.org/docs/r3.3.6/hadoop-yarn/hadoop-yarn-common/yarn-default.xml
6)配置workers
在虚拟机Hadoop1的/opt/hadoop-3.3.6/etc/hadoop/
目录,执行vi workers
命令,将workers文件默认的内容修改为如下内容。
hadoop2
hadoop3
3. 同步文件
使用scp命令将虚拟机Hadoop1的Hadoop安装目录分发至虚拟机Hadoop2和Hadoop3中存放安装程序的目录。
scp -r /opt/hadoop-3.3.6 root@hadoop2:/opt
scp -r /opt/hadoop-3.3.6 root@hadoop3:/opt
scp /etc/profile root@hadoop2:/etc
scp /etc/profile root@hadoop3:/etc
4. 格式化
- 在基于伪分布式模式部署的Hadoop安装目录
/opt/pdch/hadoop-3.3.6
中,关闭基于伪分布式模式部署的Hadoop - 在虚拟机Hadoop1执行
hdfs namenode -format
命令,对基于完全分布式模式部署的Hadoop进行格式化HDFS文件系统的操作。
注意:格式化HDFS文件系统的操作只在初次启动Hadoop集群之前进行。
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
p集群之前进行。
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
[外链图片转存中…(img-aCcAh8B1-1713033241686)]
[外链图片转存中…(img-RR1pS0Gh-1713033241687)]
[外链图片转存中…(img-1cxSTiPF-1713033241687)]
[外链图片转存中…(img-RO4rnUpA-1713033241687)]
[外链图片转存中…(img-86euLW4C-1713033241688)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-s4qgfU5w-1713033241688)]
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!