day01 伪分布式大数据Hadoop安装

伪分布式大数据Hadoop安装

一、准备工作

1. 查看防火墙运行状态

firewall-cmd --state

image-20220708063801728

  • 关闭防火墙及开机自启
systemctl stop firewalld.service
systemctl disable firewalld.service

image-20220708064024992

2. 配置主机名

  • 主机名在安装的时候修改过,可以查看主机名
hostname

image-20220708064203084

  • 修改
hostnamectl set-hostname tgm(你的主机名)

3. 修改hosts

vim /etc/hosts
  • 追加内容
10.10.10.100 tgm

4. 配置免密登录

  • 生成公钥和私钥
ssh-keygen -t rsa

image-20220708064924240

  • 进入到 目录
cd /root/.ssh
  • 拷贝公钥文件(自己免密登录)
ssh-copy-id tgm

image-20220708065006521

  • 检查是否成功
ssh root@tgm

image-20220708065109845

成功登录。

二、安装Hadoop准备

1. 卸载OpenJDK

yum remove *java*

image-20220708065242395

最小安装没有java

2. 上传安装包

Hadoopjdk上传到/opt/software

image-20220708065534708

使用MobaXterm上传文件(也是这个ssh连接的)

使用说明见文章MoaXterm(远程连接与文件传输工具)介绍

3. 解压

tar -zxf jdk-8u11-linux-x64.tar.gz -C /opt/modules/
tar -zxvf hadoop-3.3.3.tar.gz -C /opt/modules/

image-20220708070238094

  • 查看一下,ok

image-20220708070322261

4. 配置环境变量

Linux的环境变量配置文件的路径:/etc/profile ,如果对该配置修改不当,可能会造成系统的其他指令无法正常执行。 在 /etc/profile.d/ 新建一个 my_env.sh 配置文件

vim /etc/profile.d/my_env.sh

image-20220708070617331

  • 刷新配置
source /etc/profile
  • 使用java -versionhadoop version进行查询是否成功

image-20220708070753257

三、hadoop伪分布式部署

hadoop的自定义配置文件保存在了 ${HADOOP_HOME}/etc/hadoop/ 目录下。

我们需要配置的配置文件有:

hadoop-env.sh:指定Java路径和使用hadoop时的用户名

core-site.xml:指定namenode地址和数据保存目录

hdfs-site.xml:指定数据块副本数量、NameNode和SecondNameNode的web访问地址、关闭权限检查

mapred-site.xml:指定MapReduce作业使用 Yarn资源协调框架

yarn-site.xml:指定MapReduce程序之间数据传递方式、ResourceManager地址

1. 进入hadoop自定义配置文件目录

cd /opt/modules/hadoop-3.3.3/etc/hadoop/

2. 配置hadoop-env.sh

vim hadoop-env.sh
export JAVA_HOME=/opt/modules/jdk1.8.0_11
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

3. 配置core-site.xml

vim core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!--指定NameNode地址和端口号-->
    <property>
    <name>fs.defaultFS</name>
    <value>hdfs://tgm:9000</value>
    </property>
    <!--指定数据保存目录-->
    <property>
    <name>hadoop.tmp.dir</name>
    <value>/opt/modules/hadoop-3.3.3/data</value>
    </property>
</configuration>

4. hdfs-site.xml

vim hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!--指定数据块的数量为1(伪分布式安装时只有一台DataNode,所以副本数量需要设置为1)-->
    <property>
    <name>dfs.replication</name>
    <value>1</value>
    </property>
    <!--关闭HDFS权限检查-->
    <property>
    <name>dfs.permissions.enabled</name>
    <value>false</value>
    </property>
    <!--指定NameNode的web访问地址-->
    <property>
    <name>dfs.namenode.http-address</name>
    <value>tgm:9870</value>
    </property>
    <!--指定SecondaryNameNode的web访问地址-->
    <property>
    <name>dfs.namenode.secondary.http-address</name>
    <value>tgm:9868</value>
    </property>
</configuration>

5. 配置mapred-site.xml

vim mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <!--指定MapReduce作业运行在YARN组件上-->
    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>
    <!--指定历史任务访问的web地址-->
    <property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>tgm:19888</value>
    </property>
    <!--指定历史任务服务器端地址-->
    <property>
    <name>mapreduce.jobhistory.address</name>
    <value>tgm:10020</value>
    </property>
</configuration>

6. 配置yarn-site.xml

vim yarn-site.xml
<?xml version="1.0"?>
<configuration>
    <!--指定MapReduce任务使用shuffle-->
    <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    </property>
    <!--指定resourcemanager地址-->
    <property>
    <name>yarn.resourcemanager.hostname</name>
    <value>tgm</value>
    </property>
    <!--开启日志聚集功能-->
    <property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
    </property>
    <!--指定日志聚集服务器地址-->
    <property>
    <name>yarn.log.server.url</name>
    <value>tgm:19888/jobhistory/logs</value>
    </property>
    <!--设置日志保留时间 7 天-->
    <property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
    </property>
</configuration>

7. 格式化NameNode

hdfs namenode -format

image-20220708094049222

8. 启动

下面是有关Hadoop的启动、暂停指令:
start-all.sh 同时启动 HDFS和Yarn组件;
stop-all.sh 同时暂停 HDFS和Yarn组件;
start-dfs.sh 启动HDFS,
start-yarn.sh 启动yarn组件;
stop-dfs.sh 暂停 hdfs,
stop-yarn.sh 暂停yarn组件
mapred --daemon start historyserver :启动历史任务服务器
mapred --daemon stop historyserver :暂停历史任务服务器
start-all.sh
mapred --daemon start historyserver

image-20220708095732003

9. 解决问题

如果格式化失败了,可以回到hadoop中的时候,然后删除data目录重新生成。

四、成功检查

1. JPS

image-20220708143418416

2. 浏览器访问

  • 虚拟机IP:9870 :在浏览器中访问 NameNode
  • 虚拟机IP:9868 :在浏览器中访问SecondaryNameNode
  • 虚拟机IP:8088 :在浏览器中访问Yarn组件
  • 虚拟机IP:19888 :在浏览器中访问历史任务服务器。

NameNode

image-20220708143553849

SecondaryNameNode

image-20220708144135771

Yarn

image-20220708144222803

历史任务服务器

image-20220708144252754

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值