hadoop安装及基本使用

环境准备

三台centos7虚拟机,设置固定ip(自己设置),设置ssh秘密登录(自己设置),安装jdk8(自己安装)

 准备安装包hadoop-3.3.6.tar.gz

位置在/home/hadoop

准备服务器之间同步脚本 mysync.sh,用于分发文件使用的

#!/bin/bash
# 分发文件使用的
# 判空
if [ $# -lt 1 ]
then
        echo "输入参数为空!!!"
        exit
fi
# 如果非空 遍历主机
for host in hadoop102 hadoop103
do
        # 参数可能多个 再嵌套一层循环
        for file in $@
        do
                # 判断file是否为存在
                if [ -e $file ]
                # 如果文件存在 执行then
                then
                        # 1. 获取文件的目录
                        # 但是传递的参数可能为软链接 所以先进入
                        pdir=$(cd -P $(dirname $file);pwd)
                        # 2. 获取文件名
                        fname=$(basename $file)
                        # 3. 使用ssh命令登录到对应主机上创建相同目录结构
                        # 但是传递的参数可能为软链接 所以先进入
                        ssh $host "mkdir -p $pdir"
                        # 4. 使用rsync命令分发
                        rsync -av $pdir/$fname $host:$pdir
                # 如果不存在 则给出提示之后继续执行下一轮
                else
                        echo "输入的 $file 文件不存在"
                fi
        done
done

解压安装包设置环境变量

在hadoop101、hadoop102、hadoop103三台机器上都执行如下命令

解压安装包  tar -zxvf hadoop-3.3.6.tar.gz

配置HADOOP_HOME环境变量

  vim /etc/profile  添加如下内容

export HADOOP_HOME=/home/hadoop/hadoop-3.3.6
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

校验是否安装好,执行hadoop version

不是所有人都会出现这个问题,只是我出现了 ,因为系统缺少所需的 32 位兼容库。

安装glibc.i686  在root用户下面安装

yum install glibc.i686

安装好了再次执行hadoop version

到此基本配置没有问题

单点安装

默认情况下,Hadoop被配置为在非分布式模式下作为单个Java进程运行。这对调试很有用。

以下示例复制解压缩的conf目录以用作输入,然后查找并显示给定正则表达式的每个匹配项。输出被写入给定的输出目录。

创建input文件夹

[cyz@hadoop101 hadoop]$ mkdir input
[cyz@hadoop101 hadoop]$ ll
total 713000
drwxr-xr-x. 10 cyz cyz       215 Jun 18  2023 hadoop-3.3.6
-rw-r--r--.  1 cyz cyz 730107476 Mar 25 01:36 hadoop-3.3.6.tar.gz
drwxrwxr-x.  2 cyz cyz         6 Mar 25 18:22 input
-rw-r--r--.  1 cyz cyz      1240 Mar 25 02:48 mysync.sh

在input下面创建文件a.txt,内容如下

 统计a.txt中的单词数量

[cyz@hadoop101 hadoop]$ pwd
/home/hadoop
[cyz@hadoop101 hadoop]$ hadoop jar hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount input/ output   

 如果output文件夹已经存在就会报错

如果input文件夹中有多个文件就会一起统计,复制一份a.txt 伪b.txt

再次执行 (先删除output文件夹或者另选文件夹名称)

hadoop jar hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount input/ output

伪分布式安装

Hadoop也可以在伪分布式模式下在单个节点上运行,其中每个Hadoop守护进程在单独的Java进程中运行。

修改配置:配置都在/home/hadoop/hadoop-3.3.6/etc/hadoop/下面

core-site.xml: 

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
</configuration>

测试是否能够ssh本机不需要输入密码(如果不行需要设置ssh免密登录)

以下说明用于在本地运行MapReduce作业

格式化文件系统:

hdfs namenode -format

启动NameNode守护程序和DataNode守护程序:

start-dfs.sh

报错,没有设置JAVA_HOME,需要在配置文件etc/hadoop/hadoop-env.sh加上环境变量

export JAVA_HOME=/home/jdk8/jdk1.8.0_401

再次执行start-dfs.sh

发现警告,需要停止进程,如下操作

一般出现这个错误都是出现在64位机器上,只需要在hadoop-env.sh、yarn-env.sh两个文件下面加上如下配置即可

export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native  
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" 

再起启动

浏览NameNode的web界面;默认情况下,它位于 http://localhost:9870/

创建执行MapReduce作业所需的HDFS目录 

如果写的是相对路径则会文件系统的/user/<username>/下面创建文件夹,如果是绝对路径如/hhh就会在根目录下创建

hdfs dfs -mkdir -p data

hdfs dfs -mkdir /hhh

测试文件上传 

创建input文件夹 

hdfs dfs -mkdir input

把之前创建的input下面的a.txt,b.txt上传到文件系统中

hdfs dfs -put input/*.txt input

使用工具计算单词数 

hadoop jar hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount input output

 下载文件

hdfs dfs -get output output

 直接查看文件系统中文件

hdfs dfs -cat output/*

 关闭NameNode守护程序和DataNode守护程序:

stop-dfs.sh

全分布式安装

描述及介绍

本部分档描述了如何安装和配置Hadoop集群,从几个节点到数千个节点的超大集群。

Hadoop的Java配置由两种类型的重要配置文件驱动:

  • 只读默认配置-core-default.xml、hdfs-default.xml,yarn-default.xml和mapred-default.xml。特定于站点的配置-etc/hadoop/core-Site.xml、etc/hdooop/hdfs-Site.xml、etc/hodop/yarn-Site.xml和etc/hadop/mapred-Site.xml。
  • 此外,您还可以通过/etc/Hadoop/Hadoop-env.sh和etc/haooop/yarn-env.sh设置特定于站点的值来控制分布的bin/目录中的Hadoop脚本。
  • 要配置Hadoop集群,您需要配置Hadoop守护进程执行的环境以及Hadoop守护程序的配置参数。
  • HDFS守护进程是NameNode、SecondaryNameNode和DataNode。YARN守护进程是ResourceManager、NodeManager和WebAppProxy。如果要使用MapReduce,那么MapReduce作业历史服务器也将运行。对于大型安装,这些通常在单独的主机上运行。


管理员应该使用/etc/hadoop/adoop-env.sh,以及可选的/etc/hadoop/mapred-env.sh和/etc/hadoop/yarn-env.h脚本来对hadoop守护进程的进程环境进行特定站点的自定义。
至少,您必须指定JAVA_HOME,以便在每个远程节点上正确定义它。
管理员可以使用下表中显示的配置选项配置各个守护程序:

DaemonEnvironment Variable
NameNodeHDFS_NAMENODE_OPTS
DataNodeHDFS_DATANODE_OPTS
Secondary NameNodeHDFS_SECONDARYNAMENODE_OPTS
ResourceManagerYARN_RESOURCEMANAGER_OPTS
NodeManagerYARN_NODEMANAGER_OPTS
WebAppProxyYARN_PROXYSERVER_OPTS
Map Reduce Job History ServerMAPRED_HISTORYSERVER_OPTS

例如,要将Namenode配置为使用parallelGC和4GB Java堆,应在hadoop-env.sh中添加以下语句 

export HDFS_NAMENODE_OPTS="-XX:+UseParallelGC -Xmx4g"

 配置文件中指定的重要参数

  • etc/hadoop/core-site.xml
ParameterValueNotes
fs.defaultFSNameNode URIhdfs://host:port/
io.file.buffer.size131072SequenceFiles中使用的读/写缓冲区的大小。
  • etc/hadoop/hdfs-site.xml  Configurations for NameNode

ParameterValueNotes
dfs.namenode.name.dir本地文件系统上的路径,NameNode持久存储命名空间和事务日志如果这是一个逗号分隔的目录列表,则名称表将复制到所有目录中,以实现冗余。
dfs.hosts / dfs.hosts.exclude允许/排除的数据节点列表。如有必要,请使用这些文件来控制允许的数据节点列表。
dfs.blocksize268435456用于大型文件系统的256MB HDFS块大小。一般根据磁盘来定,如果是硬盘则是128,如果是固态硬盘则是256
dfs.namenode.handler.count100更多的NameNode服务器线程来处理来自大量DataNode的RPC

   Configurations for DataNode:

ParameterValueNotes
dfs.datanode.data.dir数据节点的本地文件系统上的路径的逗号分隔列表,数据节点应存储其块如果这是一个逗号分隔的目录列表,那么数据将存储在所有命名目录中,通常存储在不同的设备上
  • etc/hadoop/yarn-site.xml Configurations for ResourceManager and NodeManager:

ParameterValueNotes
yarn.acl.enabletrue / false启用ACL?默认为false。
yarn.admin.aclAdmin ACL用于在群集上设置管理员的ACL。ACL用于逗号分隔的用户空间逗号分隔的组。默认为特殊值*,表示任何人。只有空间的特殊价值意味着没有人可以访问
yarn.log-aggregation-enablefalse启用或禁用日志聚合的配置

Configurations for ResourceManager 

ParameterValueNotes
yarn.resourcemanager.addressResourceManager host:port for clients to submit jobs.host:port如果已设置,则覆盖在yarn.resourcemanager.hostname中设置的主机名。
yarn.resourcemanager.scheduler.addressResourceManager host:port for ApplicationMasters to talk to Scheduler to obtain resources.host:port如果已设置,则覆盖在yarn.resourcemanager.hostname中设置的主机名。
yarn.resourcemanager.resource-tracker.addressResourceManager host:port for NodeManagers.host:port如果已设置,则覆盖在yarn.resourcemanager.hostname中设置的主机名。
yarn.resourcemanager.admin.addressResourceManager host:port for administrative commands.host:port如果已设置,则覆盖在yarn.resourcemanager.hostname中设置的主机名。
yarn.resourcemanager.webapp.addressResourceManager web-ui host:port.host:port如果已设置,则覆盖在yarn.resourcemanager.hostname中设置的主机名。
yarn.resourcemanager.hostnameResourceManager host.host可以设置单个主机名来代替设置所有yars.resourcemanager*地址资源。导致ResourceManager组件的默认端口。
yarn.resourcemanager.scheduler.classResourceManager Scheduler class.容量使用完全限定的类名,例如[UNK]org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair。FairScheduler。
yarn.scheduler.minimum-allocation-mbMinimum limit of memory to allocate to each container request at the Resource Manager.In MBs
yarn.scheduler.maximum-allocation-mbMaximum limit of memory to allocate to each container request at the Resource Manager.In MBs
yarn.resourcemanager.nodes.include-path / yarn.resourcemanager.nodes.exclude-pathList of permitted/excluded NodeManagers.如有必要,请使用这些文件来控制允许的NodeManager列表。

等等,详情请看官网 Apache Hadoop 3.3.6 – Hadoop Cluster Setup

部署集群

规划:

NameNode和 SecondaryNameNode不要安装在同一台服务器

ResourceManager也很消耗内存,不要和 NameNodeSecondaryNameNode配置在同一台机器上

hadoop101hadoop102hadoop103
HDFSNameNode
DataNode
DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

NodeManager

配置文件说明

Hadoop配置文件分两类:默认配置文件和自定义配置文件,只有用户想修改某一默认配置值时,才需要修改自定义配置文件,更改相应属性值。

默认配置文件

要获取的默认文件文件存放在 Hadoop 的 jar 包中的位置
core-default.xmlhadoop-common-3.3.6.jar/core-default.xml
hdfs-default.xmlhadoop-hdfs-3.3.6.jar/hdfs-default.xml
yarn-default.xmlhadoop-yarn-common-3.3.6.jar/yarn-default.xml
mapred-default.xmlhadoop-mapreduce-client-core-3.3.6.jar/mapred-default.xml

自定义配置文件(重点)

core-site.xml、 hdfs-site.xml、 yarn-site.xml、 mapred-site.xml四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置

配置集群

核心配置文件 配置core-site.xml

[cyz@hadoop101 hadoop]$ vim hadoop-3.3.6/etc/hadoop/core-site.xml

<configuration>
<!--指定NameNode的地址-->
<property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop101:8020</value>
</property>

<!--指定hadoop数据的存储目录-->
<property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/hadoop-3.3.6/data</value>
</property>

<!--配置HDFS网页登录使用的静态用户为Tom -->
<property>
        <name>hadoop.http.staticuser.user</name>
<value>cyz</value>
</property>
</configuration>

HDFS配置文件 配置 hdfs-site.xml

[cyz@hadoop101 hadoop]$ vim hadoop-3.3.6/etc/hadoop/hdfs-site.xml
<configuration>
        <!--nn web端访问地址-->
        <property>
                <name>dfs.namenode.http-address</name>
                <value>hadoop101:9870</value>
        </property>
        <!--2nn web端访问地址-->
        <property>
                <name>dfs.namenode.secondary.http-address</name>
                <value>hadoop103:9868</value>
        </property>
</configuration>

YARN配置文件 配置 yarn-site.xml

[cyz@hadoop101 hadoop]$ vim hadoop-3.3.6/etc/hadoop/yarn-site.xml
<configuration>
        <!--指定MR走shuffle -->
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <!--指定ResourceManager的地址-->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>hadoop102</value>
        </property>
        <!--环境变量的继承-->
        <property>
                <name>yarn.nodemanager.env-whitelist</name>
                <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
        </property>
</configuration>

MapReduce配置文件 配置 mapred-site.xml

[cyz@hadoop101 hadoop]$ vim hadoop-3.3.6/etc/hadoop/mapred-site.xml
<configuration>
    <!--指定MapReduce程序运行在Yarn上-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

配置 workers


[cyz@hadoop101 hadoop]$ vim hadoop-3.3.6/etc/hadoop/workers
hadoop101
hadoop102
hadoop103

 不能有空格,否则会报错

分发配置到hadoop102 hadoop103

[cyz@hadoop101 hadoop]$ sh mysync.sh hadoop-3.3.6/etc/

去 hadoop102 hadoop103查看是否成功,成功即可

启动集群

第一次启动需要格式化(如果非第一次启动建议删除data和logs文件夹再次格式化)

hdfs namenode -format

启动 HDFS

 start-dfs.sh

 如果报错

没有设置JAVA_HOME,需要在配置文件etc/hadoop/hadoop-env.sh加上环境变量

export JAVA_HOME=/home/jdk8/jdk1.8.0_401

再次执行start-dfs.sh

发现警告,需要停止进程,如下操作

一般出现这个错误都是出现在64位机器上,只需要在hadoop-env.sh、yarn-env.sh两个文件下面加上如下配置即可

export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native  
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" 

再起启动

在配置了 ResourceManager的节点 hadoop102 启动 YARN 

[cyz@hadoop102 hadoop]$ start-yarn.sh
Starting resourcemanager
Starting nodemanagers
[cyz@hadoop102 hadoop]$

查看jps

 

web查看

Web端查看 HDFS的 NameNode 

http://hadoop101:9870  

Web端查看 YARN的 ResourceManager 

浏览器 中输入 http://hadoop102:8088

集群基本测试 

上传文件

上传txt文件夹到服务器input

hadoop fs -put txt/ /input

 

 文件存放位置

/home/hadoop/hadoop-3.3.6/data/dfs/data/current/BP-1683813538-192.168.31.101-1711425202456/current/finalized/subdir0/subdir0

如果上传的是大文件,就会在存储的时候变成多份,如下

 

 要想通过命令行查看文件,则需要使用拼接命令

这样才是完整的文件 

下载文件
hadoop fs -get /input/a.txt a.txt

配置历史服务器 

为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下

配置 mapred-site.xml  

[cyz@hadoop101 hadoop]$ vim hadoop-3.3.6/etc/hadoop/mapred-site.xml

添加如下内容

<!--历史服务器端地址-->
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>hadoop101:10020</value>
    </property>
    <!--历史服务器web端地址-->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>hadoop101:19888</value>
    </property>

分发配置

 sh mysync.sh hadoop-3.3.6/etc/hadoop/mapred-site.xml

在 hadoop101启动历史服务器   daemon是守护线程

mapred --daemon start historyserver

查看 JobHistory 

http://hadoop101:19888/jobhistory

配置日志的聚集 

日志聚集概念:应用运行完成以后,将程序运行日志信息上传到 HDFS系统上。
在这里插入图片描述
日志聚集功能好处 :可以方便的查看到程序运行详情,方便开发调试 。
开启日志聚集功能需要重新启动 NodeManager 、ResourceManager和HistoryServer。

开启日志聚集功能具体步骤如下 

配置 yarn-site.xml

[cyz@hadoop101 hadoop]$ vim hadoop-3.3.6/etc/hadoop/yarn-site.xml

在里面加上如下内容

<!--开启日志聚集功能-->
        <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
        </property>
        <!--设置日志聚集服务器地址-->
        <property>
                <name>yarn.log.server.url</name>
                <value>http://hadoop101:19888/jobhistory/logs</value>
        </property>
        <!--设置日志保留时间为7天-->
        <property>
                <name>yarn.log-aggregation.retain-seconds</name>
                <value>604800</value>
        </property>

分发配置

[cyz@hadoop101 hadoop]$ sh mysync.sh hadoop-3.3.6/etc/hadoop/yarn-site.xml

关闭 NodeManager 、 ResourceManager和 HistoryServer 

[cyz@hadoop101 hadoop]$ stop-yarn.sh
Stopping nodemanagers
Stopping resourcemanager
[cyz@hadoop101 hadoop]$ mapred --daemon stop historyserver
[cyz@hadoop101 hadoop]$ jps
13414 Jps
10812 DataNode
10687 NameNode
[cyz@hadoop101 hadoop]$

启动 NodeManager 、 ResourceManage和 HistoryServer

[cyz@hadoop101 hadoop]$ start-yarn.sh
Starting resourcemanager
Starting nodemanagers
[cyz@hadoop101 hadoop]$ mapred --daemon start historyserver
[cyz@hadoop101 hadoop]$ jps
13793 JobHistoryServer
13879 Jps
13640 NodeManager
10812 DataNode
10687 NameNode
[cyz@hadoop101 hadoop]$

删除 HDFS上已经存在的输出文件(非必须,如果不存在就不需要执行)

[cyz@hadoop101 hadoop]$ hadoop fs -rm -r /output

执行 WordCount程序

计算服务器上/input下面文件中的单词数

[cyz@hadoop101 hadoop]$ hadoop jar hadoop-3.3.6/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar wordcount /input /output

 

 

如果下载失败,需要在当前机器上配置域名映射,下载好打开

 也可以使用命令查看

查看日志 

http://hadoop101:19888/jobhistory

集群启动/停止方式总结 

各个模块分开启动 /停止(配置 ssh是前提)常用

整体启动 /停止 HDFS

start dfs.sh/stop dfs.sh

整体启动 /停止 YARN

start yarn.sh/stop yarn.sh

各个服务组件逐一启动 /停止

分别启动 /停止 HDFS组件

hdfs daemon start/stop namenode/datanode/secondarynamenode

启动 /停止 YARN

yarn daemon start/stop resourcemanager/nodemanager

编写 Hadoop集群常用脚本

Hadoop集群启停脚本

(包含 HDFS, Yarn, Historyserver) : myhadoop.sh

#!/bin/bash

if [ $# -lt 1 ]
then
        echo "No Args Input..."
        exit ;
fi

case $1 in
"start")
        echo " =================== 启动hadoop集群==================="
        echo " ---------------启动hdfs ---------------"
        ssh hadoop101 "/home/hadoop/hadoop-3.3.6/sbin/start-dfs.sh"
        echo " ---------------启动yarn ---------------"
        ssh hadoop102 "/home/hadoop/hadoop-3.3.6/sbin/start-yarn.sh"
        echo " ---------------启动historyserver ---------------"
        ssh hadoop101 "/home/hadoop/hadoop-3.3.6/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭hadoop集群==================="
        echo " ---------------关闭historyserver ---------------"
        ssh hadoop101 "/home/hadoop/hadoop-3.3.6/bin/mapred --daemon stop historyserver"
        echo " ---------------关闭yarn ---------------"
        ssh hadoop102 "/home/hadoop/hadoop-3.3.6/sbin/stop-yarn.sh"
        echo " ---------------关闭hdfs ---------------"
        ssh hadoop101 "/home/hadoop/hadoop-3.3.6/sbin/stop-dfs.sh"
;;
*)
        echo "Input Args Error..."
;;
esac

查看三台服务器 Java进程脚本: jpsall.sh

#!/bin/bash

for host in hadoop101 hadoop102 hadoop103
do
        echo =============== $host ===============
        ssh $host jps
done

常用端口号说明及版本区别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值