hadoop平台搭建

最新推荐文章于 2024-04-24 20:37:12 发布

小手且冰凉

最新推荐文章于 2024-04-24 20:37:12 发布

阅读量360

点赞数 1

分类专栏：笔记集群搭建文章标签： hadoop hdfs 大数据

本文链接：https://blog.csdn.net/qq_47468106/article/details/122553004

版权

笔记同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

集群搭建

1 篇文章 0 订阅

订阅专栏

小白Hadoop集群搭建（超全面）

集群简介

Hadoop是一个分布式系统基础框架，它的 HDFS 、 MapReduce 、 HBase 分别是Google的GFS、MapReduce、BigTable这三个思想的实现。

特点：

高可靠。按位存储和处理数据的能力强，可靠性强。
高可用。它是在计算机集群间分配数据并完成计算任务的，这些集群可以扩展数以千计的节点。
高效性。能在节点间动态地移动数据，并保证各个节点的动态平衡，所以处理速度非常快。
高容错性。能够自动保存数据的多个副本。

集群部署方式

Hadoop部署方式分三种：

1、Standalone mode（独立模式）
独立模式又称为单机模式，仅1个机器运行1个java进程，主要用于调试。

2、Pseudo-Distributed mode（伪分布式模式）
伪分布模式也是在1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager，但分别启动单独的java进程，主要用于调试。

3、Cluster mode（群集模式）-单节点模式-高可用HA模式
集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下，主节点和从节点会分开部署在不同的机器上。

本篇文章简述第二种搭建模式

集群配置

1）集群部署规划
注意：
NameNode和SecondaryNameNode不要安装在同一台服务器
ResourceManager也很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。|

hadoop101	hadoop102	hadoop103
NameNode	DataNode	SecondaryNameNode
DataNode	ResourceManager	DataNode
NodeManager	NodeManager	NodeManager

2）集群前提准备
进入C:\Windows\System32\drivers\etc路径（Windows下主机映射）
打开hosts文件并添加如下内容，然后保存

192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103

虚拟机中修改/etc/hosts文件
SSH无密登录配置（虚拟机）
1新建一个文件夹（.ssh）并进入执行下面命令

ssh-keygen -t rsa

然后敲（三个回车），就会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）
将公钥拷贝到要免密登录的目标机器上

ssh-copy-id hadoop10i(i分别为1,2,3)

注意：其他节点依旧要依次执行
出现的问题（配置无密登录依旧要输密码）
解决方法：被登录机器的文件权限问题

//用户权限

chmod 700 /home/username 网上有文说755也行我没有尝试读者可自行尝试

//.ssh文件夹权限

chmod 700 ~/.ssh/

// ~/.ssh/authorized_keys 文件权限

chmod 600 ~/.ssh/authorized_keys

3）配置集群

配置core-site.xml

cd $HADOOP_HOME/etc/hadoop
vim core-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop101:8020</value>
    </property>

    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>

    <!-- 配置HDFS网页登录使用的静态用户为hadoop -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>hadoop</value>
    </property>
</configuration>

配置hdfs-site.xml

vim hdfs-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- nn web端访问地址-->
	<property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop101:9870</value>
    </property>
	<!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop103:9868</value>
    </property>
</configuration>

配置yarn-site.xml

vim yarn-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop102</value>
    </property>

    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

配置mapred-site.xml

vim mapred-site.xml

文件内容如下：

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
	<!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

配置workers

（hadoop 3.X 以后是workers 文件 3 以前是slaves）
在该文件中增加如下内容：

hadoop101
hadoop102
hadoop103

将所有节点文件进行同步这里用到rsync远程同步工具
rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

启动集群

（1）如果集群是第一次启动，需要在hadoop101节点格式化NameNode（注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。）

hdfs namenode -format

（2）启动集群可用hadoop/sbin目录下的脚本文件

start-dfs.sh		启动HDFS
start-yarn.sh		启动YARN
start-all.sh		启动所有

配置历史服务器

在mapred-site.xml文件里面增加如下配置

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
</property>

历史服务器端口：http://hadoop102:19888/jobhistory

配置日志的聚集

日志聚集概念：应用运行完成以后，将程序运行日志信息上传到HDFS系统上
在yarn-site.xml文件里面增加如下配置

<!-- 开启日志聚集功能 -->
<property>
    <name>yarn.log-aggregation-enable</name>
    <value>true</value>
</property>
<!-- 设置日志聚集服务器地址 -->
<property>  
    <name>yarn.log.server.url</name>  
    <value>http://hadoop101:19888/jobhistory/logs</value>
</property>
<!-- 设置日志保留时间为7天 -->
<property>
    <name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>

常用端口号说明

端口名称	Hadoop2.x	Hadoop3.x
NameNode内部通信端口	8020 / 9000	8020 / 9000/9820
NameNode HTTP UI	50070	9870
MapReduce查看执行任务端口	8088	8088
历史服务器通信端口	19888	19888

常见错误及解决方案

1）防火墙没关闭、或者没有启动YARN
INFO client.RMProxy: Connecting to ResourceManager at hadoop101/192.168.10.101:8032

stop firewalld
disable firewalld.service

2）8088端口连接不上
修改 /etc/hosts

注释掉如下代码
#127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
#::1         hadoop102

3）jps不生效
原因：全局变量hadoop java没有生效。解决办法：需要source /etc/profile文件。
注意：本文Java hadoop 均需读者自行配置附环境变量文件

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

小手且冰凉

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hadoop平台搭建

Hadoop是一个分布式系统基础框架，它的 HDFS 、 MapReduce 、 HBase 分别是Google的GFS、MapReduce、BigTable这三个思想的实现。特点：高可靠。按位存储和处理数据的能力强，可靠性强。高可用。它是在计算机集群间分配数据并完成计算任务的，这些集群可以扩展数以千计的节点。高效性。能在节点间动态地移动数据，并保证各个节点的动态平衡，所以处理速度非常快。高容错性。能够自动保存数据的多个副本。Hadoop部署方式分三种：1、Standalone mode（独立模式）
复制链接

扫一扫