Hadoop学习-02-基础

最新推荐文章于 2021-11-23 16:30:14 发布

Ty_0026

最新推荐文章于 2021-11-23 16:30:14 发布

阅读量313

点赞数 1

分类专栏： # Hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/Ty_0026/article/details/116751935

版权

Hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Hadoop部署

基础环境准备

Linux - Centos7
JDK 1.8
Hadoop 3.x

模板机准备

#基础包
yum install -y epel-release net-tool vim

# 关闭防火墙
systemctl stop firewalld
systemctl disable firewalld.service

#创建用户并授权
useradd atguigu
passwd atguigu

#atguigu 这一行不要直接放到 root 行下面，因为所有用户都属于 wheel 组，你先配置了atguigu具有免密功能，但是程序执行到%wheel 行时，该功能又被覆盖回需要密码。所以atguigu要放到%wheel这行下面
vim /etc/sudoers
atguigu   ALL=(ALL)     NOPASSWD:ALL

#创建module和software文件夹
mkdir /opt/module
mkdir /opt/software
chown atguigu:atguigu /opt/module 
chown atguigu:atguigu /opt/software
# 卸载虚拟机自带的JDK
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
#重启
reboot

节点属性修改

# 主机名和IP地址需要修改，这里不列出
# /etc/hosts 需要添加IP与host映射
vim /etc/hostname
vim /etc/sysconfig/network-scripts/ifcfg-ens33
cat >> /etc/hosts << EOF
192.168.40.20 cl-master
192.168.40.21 cl-node1
192.168.40.22 cl-node2
EOF
# 修改Windows host映射，我直接使用的是switchhost
192.168.40.20 cl-master
192.168.40.21 cl-node1
192.168.40.22 cl-node2

JDK和Hadoop安装

#将安装包上传到sofeware文件夹
cd /opt/software/
# 解压
tar  -zxvf  jdk-8u212-linux-x64.tar.gz -C /opt/module/
tar  -zxvf  hadoop-3.1.3.tar.gz -C /opt/module/
# JDK配置环境变量
sudo vim /etc/profile.d/my_env.sh
# 添加
#JAVA_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export JAVA_HOME=/opt/module/jdk1.8.0_212 
export PATH=$PATH:$JAVA_HOME/bin
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

# 应用环境变量
source /etc/profile
# 测试JDK
java -version
hadoop version

Hadoop 目录结构

（1）bin 目录：存放对 Hadoop 相关服务（hdfs，yarn，mapred）进行操作的脚本
（2）etc 目录：Hadoop 的配置文件目录，存放 Hadoop 的配置文件
（3）lib 目录：存放 Hadoop 的本地库（对数据进行压缩解压缩功能）
（4）sbin 目录：存放启动或停止 Hadoop 相关服务的脚本
（5）share 目录：存放 Hadoop 的依赖 jar 包、文档、和官方案例

运行模式

Hadoop 运行模式包括：本地模式、伪分布式模式以及完全分布式模式。
➢ 本地模式：单机运行，只是用来演示一下官方案例。生产环境不用
➢ 伪分布式模式：也是单机运行，但是具备 Hadoop 集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。
➢ 完全分布式模式：多台服务器组成分布式环境。生产环境使用。

本地模式

# 1）创建在  hadoop-3.1.3 文件下面创建一个  wcinput 文件夹
cd /opt/module/hadoop-3.1.3
mkdir wcinput
cd wcinput
# 2)新增txt文件
vim word.txt
# 输入测试内容
hadoop yarn 
hadoop mapreduce 
atguigu
atguigu
# 运行hadoop
cd ..
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount wcinput wcoutput
# 查看结果
cat wcoutput/part-r-00000

完全分布式模式（集群）

#xsync分发脚本
#!/bin/bash 
#1. 判断参数个数
if [ $# -lt 1 ] 
    then
        echo Not Enough Arguement! 
        exit;
fi
#2. 遍历集群所有机器
for host in cl-master cl-node1 cl-node2
do
        echo ====================  $host  ==================== 
        #3. 遍历所有目录，挨个发送
        for file in $@
        do
        #4. 判断文件是否存在 
                if [ -e $file ]
                        then
                                #5. 获取父目录
                                pdir=$(cd -P $(dirname $file); pwd)
                                #6. 获取当前文件的名称
                                fname=$(basename $file)
                                ssh $host "mkdir -p $pdir"
                                rsync -av $pdir/$fname $host:$pdir
                        else
                                echo $file does not exists! 
                fi
        done
done

#发送主机和接受主机都需要先安装rsync
sudo yum install -y rsync

# 创建执行脚本
cd /home/atguigu
mkdir bin
cd bin
vim xsync
#添加执行权限
chmod +x xsync
# 测试脚本
xsync /home/atguigu/bin
# 添加到bin
sudo cp xsync /bin/
#同步环境变量设置
sudo ./bin/xsync /etc/profile.d/my_env.sh

#配置ssh无秘登录
mkdir /home/atguigu/.ssh
cd /home/atguigu/.ssh
#生成RSA秘钥
ssh-keygen -t rsa
#分发公钥给其它机器，其它机器如果想要免密登录也需要重新配置
ssh-copy-id cl-master
ssh-copy-id cl-node1
ssh-copy-id cl-node2

集群配置

1）集群部署规划

NameNode 和 SecondaryNameNode 不要安装在同一台服务器

ResourceManager 也很消耗内存，不要和 NameNode、SecondaryNameNode 配置在同一台机器上

2）配置文件说明

Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。

默认配置文件：

自定义配置文件：

core-site.xml、 hdfs-site.xml、 yarn-site.xml、 mapred-site.xml 四个配置文件存放在 $HADOOP_HOME/etc/hadoop 这个路径上，用户可以根据项目需求重新进行修改配置。

3）集群配置

cd $HADOOP_HOME/etc/hadoop

core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration>
	<!-- 指定 NameNode的地址   --> 
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://cl-master:8020</value> 
	</property>
	<!-- 指定 hadoop数据的存储目录   --> 
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/module/hadoop-3.1.3/data</value> 
	</property>
	<!-- 配置 HDFS网页登录使用的静态用户为 atguigu --> 
	<property>
		<name>hadoop.http.staticuser.user</name> 
        <value>atguigu</value>
	</property> 
</configuration>

hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration>
	<!-- nn web端访问地址-->
	<property>
		<name>dfs.namenode.http-address</name> 
		<value>cl-master:9870</value>
	</property>
	<!-- 2nn web端访问地址-->
	<property>
		<name>dfs.namenode.secondary.http-address</name> 
		<value>cl-node2:9868</value>
	</property> 
</configuration>

yarn-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration>
	<!-- 指定 MR走  shuffle -->
	<property>
		<name>yarn.nodemanager.aux-services</name> 
		<value>mapreduce_shuffle</value>
	</property>
	<!-- 指定 ResourceManager的地址-->
	<property>
		<name>yarn.resourcemanager.hostname</name> 
		<value>cl-node1</value>
	</property>
	<!-- 环境变量的继承   -->
	<property>
		<name>yarn.nodemanager.env-whitelist</name>
		<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME,HADOOP_HOME,PATH,LANG,TZ</value>
	</property>
</configuration>

mapred-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 
<configuration>
	<!-- 指定 MapReduce程序运行在  Yarn上   --> 
	<property>
		<name>mapreduce.framework.name</name> 
		<value>yarn</value>
	</property>
</configuration>

分发文件

xsync   /opt/module/hadoop-3.1.3/etc/hadoop/

开启集群

vim  /opt/module/hadoop-3.1.3/etc/hadoop/workers
#该文件中添加的内容结尾不允许有空格，文件中不允许有空行
cl-master
cl-node1
cl-node2

#同步所有配置文件
xsync /opt/module/hadoop-3.1.3/etc

#启动集群(不能以root用户启动)
cd /opt/module/hadoop-3.1.3/
hdfs namenode -format
sbin/start-dfs.sh
#在配置了  ResourceManager 的节点（cl-node1）启动  YARN
sbin/start-yarn.sh
#Web 端查看 HDFS 的 NameNode http://cl-master:9870
#Web 端查看  YARN 的 ResourceManager http://cl-node1:8088

如果集群是第一次启动，需要在cl-master格式化 NameNode（注意：格式化 NameNode，会产生新的集群 id，导致 NameNode 和 DataNode 的集群 id 不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化 NameNode的话，一定要先停止 namenode 和 datanode 进程，并且要删除所有机器的 data 和 logs 目录，然后再进行格式化。

6)测试

hadoop fs -mkdir /input
# 测试小文件上传
hadoop fs -put $HADOOP_HOME/wcinput/word.txt /input
# 测试大文件上传
hadoop fs -put /opt/software/jdk-8u212-linux-x64.tar.gz /
# 查看存储路径
/opt/module/hadoop-3.1.3/data/dfs/data/current/BP-378014640-192.168.40.20-1619768012296/current/finalized/subdir0/subdir0
#拼接
cat blk_1073741836>>tmp.tar.gz
cat blk_1073741837>>tmp.tar.gz
tar -zxvf tmp.tar.gz
# 下载
hadoop fs -get /jdk-8u212-linux-x64.tar.gz ./
# wordcount测试
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

历史服务器

修改mapred-site.xml

<!--增加-->
<!-- 历史服务器端地址   --> 
<property>
	<name>mapreduce.jobhistory.address</name> 
    <value>cl-master:10020</value>
</property>
<!-- 历史服务器  web端地址   --> 
<property>
	<name>mapreduce.jobhistory.webapp.address</name>
    <value>cl-master:19888</value>
</property>

分发配置
启动服务器

mapred --daemon start historyserver
#查看服务器是否启动
jps
#查看  JobHistory
http://cl-master:19888/jobhistory

日志聚集：

修改yarn-site.xml

        <!-- 开启日志聚集功能   -->
        <property>
            <name>yarn.log-aggregation-enable</name> 
            <value>true</value>
        </property>
        <!-- 设置日志聚集服务器地址   -->
        <property>  
            <name>yarn.log.server.url</name>  
            <value>http://cl-master:19888/jobhistory/logs</value> 
        </property>
        <!-- 设置日志保留时间为  7天   -->
        <property>
            <name>yarn.log-aggregation.retain-seconds</name> 
            <value>604800</value>
        </property>

分发配置
重启NodeManager 、ResourceManager 和 HistoryServer

sbin/stop-yarn.sh
mapred  --daemon stop historyserver

start-yarn.sh
mapred --daemon start historyserver

测试

#删除  HDFS 上已经存在的输出文件
hadoop fs -rm -r /output
#WordCount
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output
#查看  JobHistory
http://cl-master:19888/jobhistory

Hadoop常用脚本

#!/bin/bash
#启停脚本
if [ $# -lt 1 ] 
	then
		echo "No Args Input..." 
		exit;
fi
case $1 in 
"start")
	echo " =================== 启动   hadoop集群   ===================" 
	echo " --------------- 启动   hdfs ---------------"
	ssh cl-master "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh" 
	echo " --------------- 启动   yarn ---------------"
	ssh cl-node1 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
	echo " --------------- 启动   historyserver ---------------"
	ssh cl-master "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
	echo " =================== 关闭   hadoop集群   ===================" 
	echo " --------------- 关闭   historyserver ---------------"
	ssh cl-master "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
	echo " --------------- 关闭   yarn ---------------"
	ssh cl-node1 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh" 
	echo " --------------- 关闭   hdfs ---------------"
	ssh cl-master "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
	echo "Input Args Error..."
;;
esac

#!/bin/bash
#查看服务器  Java 进程脚本
for host in cl-master cl-node1 cl-node2 
do
	echo =============== $host =============== 
	ssh $host jps 
done

常用端口

Ty_0026

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
Hadoop学习-02-基础

Hadoop部署基础环境准备Linux - Centos7JDK 1.8Hadoop 3.x模板机准备#基础包yum install -y epel-release net-tool vim# 关闭防火墙systemctl stop firewalldsystemctl disable firewalld.service#创建用户并授权useradd atguigupasswd atguigu#atguigu 这一行不要直接放到 root 行下面，因为所有用户都属于 w
复制链接

扫一扫