大数据技术原理(二):搭建hadoop伪分布式集群这一篇就够了

(实验一 搭建hadoop伪分布式

--------------------------------------------------------------------------------------------------------------------------------

一、实验目的

1.理解Hadoop伪分布式的安装过程

实验内容涉及Hadoop平台的搭建和配置,旨在提高对大数据处理框架的理解和实践能力。通过完成本实验,将能够独立完成Hadoop伪分布式环境的安装和配置。

2.学会JDK安装和编译hadoop源码包

同时,通过手动编译hadoop源码包,还将能够更深入地了解Hadoop的内部原理和工作机制,通过解决问题并不断思考,具备根据需求进行扩展和定制的能力。

3.学会Hadoop伪分布式安装和参数配置

修改Hadoop的配置文件,包括core-site.xml、hdfs-site.xml等,根据实际需求设置相应的参数,启动Hadoop集群服务,检查各个节点的运行状态是否正常。

二、实验环境

1.VMware WorkStation Pro 16

2.Jdk 1.8.0_241

3.hadoop2.7.5

三、实验原理

1.Hadoop架构概述

Hadoop是一个开源的分布式计算框架,主要用于存储和处理大规模数据集。它采用了分布式存储和计算的方式,将大型数据集分割成多个数据块,并将这些数据块分布式存储到多台计算机节点上。

2.伪分布式的安装

伪分布式实验是在单台计算机上模拟多个Hadoop节点的环境。通过在一台计算机上安装Hadoop软件并进行适当的配置,可以模拟一个包含多个节点的Hadoop集群,并让这些节点之间相互通信和协作。


四、实验步骤与实验结果

(一)服务器基础环境准备

1.修改好虚拟机主机名

vi /etc/hostname,将其改为node1

2.查看虚拟机IP地址

ifconfig,查看显示IP地址为192.168.88.100

3.修改主机名和IP的映射关系

vim /etc/hosts,输入:192.168.88.100 node1

与此同时,同步修改windows的C:\Windows\System32\drivers\etc\hosts文件

4.用主机名ping通:宿主机IP和外网IP

ping 192.168.88.100
ping www.baidu.com

5.关闭虚拟机防火墙和windows防火墙
(1)关闭虚拟机防火墙

#查看防火墙状态

systemctl status firewalld.service

#关闭防火墙

systemctl stop firewalld.service

#关闭防火墙开机启动

systemctl disable firewalld.service

(2)关闭windows防火墙

(二)在虚拟机上安装JDK

1.上传jdk

rz jdk-8u65-linux-x64.tar.gz,需要安装rz命令(yum install -y lrzsz)

2.解压jdk

tar -zxvf jdk-8u65-linux-x64.tar.gz -C /export/server

其中,tar命令参数解释如下:

-z:使用解压方式

-x:解压gz的文件

-v:显示解压信息

-f:带解压文件名

-C:指定解压路径

3.将java添加到环境变量中

vim /etc/profile

#在文件最后添加

export JAVA_HOME=/export/server/jdk1.8.0_241

export PATH=$PATH:$JAVA_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/

4.刷新配置文件

source /etc/profile

5.查看jdk安装情况

java -version

(三)重新编译hadoop

1.官方网站下载源码包

Index of /dist

2.下载对应版本编译包

https://archive.apache.org/dist/hadoop/common/

hadoop-2.7.5-src.tar.gz      //source 源码包

hadoop-2.7.5.tar.gz         //官方编译后安装包

3.进行hadoop源码包编译

在源码的根目录下有编译相关的文件BUILDING.txt 指导如何编译。

使用maven进行编译 联网jar.

4.编译环境进行目录创建

mkdir -p /export/server

5.安装编译相关的依赖

yum install gcc gcc-c++ make autoconf automake libtool curl lzo-devel zlib-devel openssl openssl-devel ncurses-devel snappy snappy-devel bzip2 bzip2-devel lzo lzo-devel lzop libXtst zlib -y

yum install -y doxygen cyrus-sasl* saslwrapper-devel*

6.手动安装cmake

#yum卸载已安装cmake 版本低

yum erase cmake

#解压

tar zxvf CMake-3.19.4.tar.gz

#编译安装

cd /export/server/CMake-3.19.4

./configure

make && make install

#验证

[root@node1 ~]# cmake -version

cmake version 3.19.4

#如果没有正确显示版本 请断开SSH连接 重写登录

7.手动安装snappy

#卸载已经安装的

rm -rf /usr/local/lib/libsnappy*

rm -rf /lib64/libsnappy*

#上传解压

tar zxvf snappy-1.1.3.tar.gz

#编译安装

cd /export/server/snappy-1.1.3

./configure

make && make install

#验证是否安装

[root@node1 snappy-1.1.3]# ls -lh /usr/local/lib |grep snappy

-rw-r--r-- 1 root root 511K Nov  4 17:13 libsnappy.a

-rwxr-xr-x 1 root root  955 Nov  4 17:13 libsnappy.la

lrwxrwxrwx 1 root root   18 Nov  4 17:13 libsnappy.so -> libsnappy.so.1.3.0

lrwxrwxrwx 1 root root   18 Nov  4 17:13 libsnappy.so.1 -> libsnappy.so.1.3.0

-rwxr-xr-x 1 root root 253K Nov  4 17:13 libsnappy.so.1.3.0

8.安装maven

#解压安装包

tar zxvf apache-maven-3.5.4-bin.tar.gz

#配置环境变量

vim /etc/profile

export MAVEN_HOME=/export/server/apache-maven-3.5.4

export MAVEN_OPTS="-Xms4096m -Xmx4096m"

export PATH=:$MAVEN_HOME/bin:$PATH

source /etc/profile

#验证是否安装成功

[root@node1 ~]# mvn -v

Apache Maven 3.5.4

#添加maven 阿里云仓库地址 加快国内编译速度

vim /export/server/apache-maven-3.5.4/conf/settings.xml

<mirrors>

     <mirror>

           <id>alimaven</id>

           <name>aliyun maven</name>

           <url>http://maven.aliyun.com/nexus/content/groups/public/</url>

           <mirrorOf>central</mirrorOf>

      </mirror>

</mirrors>

9.安装ProtocolBuffer 3.7.1

#卸载之前版本的protobuf

#解压

tar zxvf protobuf-3.7.1.tar.gz

#编译安装

cd /export/server/protobuf-3.7.1

./autogen.sh

./configure

make && make install

#验证是否安装成功

[root@node1 protobuf-3.7.1]# protoc --version

libprotoc 3.7.1

10.编译hadoop

#上传解压源码包

tar zxvf hadoop-2.7.5-src.tar.gz

#编译

cd /root/hadoop-2.7.5-src

mvn clean package -Pdist,native -DskipTests -Dtar -Dbundle.snappy -Dsnappy.lib=/usr/local/lib

#参数说明:

Pdist,native :把重新编译生成的hadoop动态库;

DskipTests :跳过测试

Dtar :最后把文件以tar打包

Dbundle.snappy :添加snappy压缩支持【默认官网下载的是不支持的】

Dsnappy.lib=/usr/local/lib :指snappy在编译机器上安装后的库路径

11.编译后安装包路径

/root/hadoop-2.7.5-src/hadoop-dist/target

(四)安装hadoop伪分布式

1.上传Hadoop安装包

hadoop-2.7.5-Centos7-64-with-snappy.tar.gz

tar zxvf hadoop-2.7.5-Centos7-64-with-snappy.tar.gz -C /export/server/

2.切换到配置文件目录

cd /export/server/hadoop-2.7.5/etc/hadoop

3.修改hadoop-env.sh

export JAVA_HOME=/export/server/jdk1.8.0_241

#文件最后添加

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

4.修改core-site.xml

<!-- 设置默认使用的文件系统 Hadoop支持file、HDFS、GFS、ali|Amazon云等文件系统 -->

<property>

    <name>fs.defaultFS</name>

    <value>hdfs://node1:8020</value>

</property>

<!-- 设置Hadoop本地保存数据路径 -->

<property>

    <name>hadoop.tmp.dir</name>

    <value>/export/data/hadoop-2.7.5</value>

</property>

<!-- 设置HDFS web UI用户身份 -->

<property>

    <name>hadoop.http.staticuser.user</name>

    <value>root</value>

</property>

<!-- 整合hive 用户代理设置 -->

<property>

    <name>hadoop.proxyuser.root.hosts</name>

    <value>*</value>

</property>

<property>

    <name>hadoop.proxyuser.root.groups</name>

    <value>*</value>

</property>

5.修改hdfs-site.xml

<configuration>

<!-- 指定SecondaryNameNode的主机和端口 -->

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>node1:50090</value>

</property>

<!-- 指定namenode的页面访问地址和端口 -->

<property>

<name>dfs.namenode.http-address</name>

<value>node1:50070</value>

</property>

<!-- 指定namenode元数据的存放位置 -->

<property>

<name>dfs.namenode.name.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/namenodeDatas</value>

</property>

<!--  定义datanode数据存储的节点位置 -->

<property>

<name>dfs.datanode.data.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/datanodeDatas</value>

</property>

<!-- 定义namenode的edits文件存放路径 -->

<property>

<name>dfs.namenode.edits.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/nn/edits</value>

</property>

<!-- 配置检查点目录 -->

<property>

<name>dfs.namenode.checkpoint.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/snn/name</value>

</property>

<property>

<name>dfs.namenode.checkpoint.edits.dir</name>

<value>file:///export/server/hadoop-2.7.5/hadoopDatas/dfs/snn/edits</value>

</property>

<!-- 文件切片的副本个数-->

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

<!-- 设置HDFS的文件权限-->

<property>

<name>dfs.permissions</name>

<value>false</value>

</property>

<!-- 设置一个文件切片的大小:128M-->

<property>

<name>dfs.blocksize</name>

<value>134217728</value>

</property>

<!-- 指定DataNode的节点配置文件 -->

<property>

 <name> dfs.hosts </name>

 <value>/export/server/hadoop-2.7.5/etc/hadoop/slaves </value>

</property>

</configuration>

6.修改mapred-site.xml

<!-- 设置MR程序默认运行模式: yarn集群模式 local本地模式 -->

<property>

  <name>mapreduce.framework.name</name>

  <value>yarn</value>

</property>

<!-- MR程序历史服务器端地址 -->

<property>

  <name>mapreduce.jobhistory.address</name>

  <value>node1:10020</value>

</property>

<!-- 历史服务器web端地址 -->

<property>

  <name>mapreduce.jobhistory.webapp.address</name>

  <value>node1:19888</value>

</property>

<property>

  <name>yarn.app.mapreduce.am.env</name>

  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>

</property>

<property>

  <name>mapreduce.map.env</name>

  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>

</property>

<property>

  <name>mapreduce.reduce.env</name>

  <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

7.修改yarn-site.xml

<!-- 设置YARN集群主角色运行机器位置 -->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>node1</value>

</property>

<property>

    <name>yarn.nodemanager.aux-services</name>

    <value>mapreduce_shuffle</value>

</property>

<!-- 是否将对容器实施物理内存限制 -->

<property>

    <name>yarn.nodemanager.pmem-check-enabled</name>

    <value>false</value>

</property>

<!-- 是否将对容器实施虚拟内存限制。 -->

<property>

    <name>yarn.nodemanager.vmem-check-enabled</name>

    <value>false</value>

</property>

<!-- 开启日志聚集 -->

<property>

  <name>yarn.log-aggregation-enable</name>

  <value>true</value>

</property>

<!-- 设置yarn历史服务器地址 -->

<property>

    <name>yarn.log.server.url</name>

    <value>http://node1:19888/jobhistory/logs</value>

</property>

<!-- 保存的时间7天 -->

<property>

  <name>yarn.log-aggregation.retain-seconds</name>

  <value>604800</value>

</property>

8.修改slaves文件(3.0版本之后更名为works文件)

cd /export/server/hadoop-2.7.5/etc/hadoop
vim slaves       // 将主机名node1填进去

9.将hadoop添加到环境变量

vim /etc/proflie

export HADOOP_HOME=/export/server/hadoop-2.7.5

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

10.首次启动hadoop(格式化namenode)

hdfs namenode -format

#切记不可以多次格式化

(五)hadoop安装后初体验

1.启动hadoop软件

# 切换到启动脚本文件目录
cd /export/server/hadoop-2.7.5/sbin

# 运行一键启动hadoop服务的命令
./start-all.sh

# 查看节点上的服务情况
jps

2.启动hdfs的UI界面

# 在浏览器上输入
node1:50070

3.在hdfs上进行文件操作

# linux终端上进行命令行

hadoop fs -ls /

hadoop fs -mkdir /li-qi-liang

4.运行mapreduce程序

# 准备wordcount.txt文件,文件内容如下:

hello hello

world world

hadoop hadoop

hello world

hello flume

hadoop hive

hive kafka

flume storm

hive oozie

# 在hdfs上创建文件目录

hadoop fs -mkdir -p /wordcount/input

hadoop fs -put ./wordcount.txt /wordcount/input

# 切换到hadoop自带的mapreduce的jar包目录

cd /export/server/hadoop-2.7.5/share/hadoop/mapreduce

# 执行wordcount的mapreduce计算

hadoop jar hadoop-mapreduce-examples-2.7.5.jar wordcount

 /wordcount/input /wordcount/output

第一个参数:wordcount表示执行单词统计

第二个参数:指定输入文件的路径

第三个参数:指定输出结果的路径(该路径不能已存在)

5.关闭hadoop软件

# 切换到启动脚本文件目录
cd /export/server/hadoop-2.7.5/sbin

# 运行一键关闭hadoop服务的命令
./stop-all.sh
# 查看节点上的服务情况
jps

5.实验完毕,关闭虚拟机


# 方式一:

shutdown -h now


# 方式二:


init 0


# 方式三:


VMware上点击关机


五、实验总结

(一)发现问题与解决问题

1.编译hadoop出现警告消息

根据报错信息来看,编译hadoop过程中出现了找不到SASL库的错误。

解决方法如下:


yum install -y doxygen cyrus-sasl* saslwrapper-devel*

2.本地上传文件到linux上出现乱码

根据网上资料显示,当使用rz命令上传文件出现乱码时,可以采取添加参数。

解决方法如下:

输入rz -be  即可解决

rz命令的参数说明:

-a, –ascii

-b, –binary 用binary的方式上传下载,不解释字符为 ascii

-e, –escape 强制escape 所有控制字符,比如 Ctrl+x,DEL 等

-ary –o-sync

-a 表示使用ascii码格式传输文件,如果是Dos格式的文件,会转换为unix格式

-r 使用 Crash recovery mode. 即文件传输中断会重传

-y 表示文件已存在的时候会覆盖

–o-sync 采用同步写模式,以处理从缓存写到磁盘时中断丢失的情况

3.使用vim编辑器编辑文件粘贴失效

当使用vim编辑器进行粘贴配置文件信息时,常常粘贴的内容变成注释且很难取消,原因是vim编辑器没有处于粘贴模式(paste)。

解决方法如下:

令vim编辑器处于命令模式(ESC键+冒号):set paste

当粘贴结束后,set nopaste即可退出该模式。

4.伪分布式的集群时间不统一

当出现时间不统一的情况下,需要与阿里云服务器统一时间。

解决方法如下:

集群同步时间命令:ntpdate ntp5.aliyun.com

5.集群安全模式下不能修改删除

伪分布式集群误操作使得处于安全模式,需要退出安全模式才可以进行文件操作。

解决方法如下:

hadoop dfsadmin -safemode leave

6.hadoop中hdfs的9870端口用不了

通过查看版本差异,发现hadoop3.0以下的版本中默认端口号不是9870端口

解决方法如下:

node1:50070


(二)总结实验与思考感悟

搭建Hadoop伪分布式集群是学习和理解Hadoop分布式计算框架的重要一步。

1.规划和准备

在开始搭建伪分布式集群之前,需要充分规划和准备工作。首先,了解Hadoop的基本概念和架构,对其运行原理有清晰的理解。然后,确定使用的操作系统、网络设置和硬件配置。确保操作系统满足Hadoop的最低要求,并且网络配置和硬件资源能够支持集群的需求。

2.安装和配置Hadoop

根据操作系统选择适当版本的Hadoop,下载并解压安装包。在安装过程中,需要进行一些关键配置,例如修改核心配置文件(如hadoop-env.sh、core-site.xml、hdfs-site.xml等),指定必要的路径、端口、日志目录等。此外,还要设置SSH免密登录,以便节点之间能够相互通信。在此过程中,需要仔细阅读官方文档,并参考示例配置进行调整。

3.单节点测试

在搭建伪分布式集群之前,可以先在单个节点上进行测试和调试。这样可以确保Hadoop的基本功能正常工作。在单节点测试中,需要验证HDFS文件系统的正常操作(如上传、下载、移动文件等),以及MapReduce任务的执行情况。通过这些测试可以熟悉Hadoop的命令和工作流程,并排查可能出现的问题。

4.集群部署

完成单节点测试后,可以将配置好的Hadoop复制到其他节点上,以搭建伪分布式集群。确保所有节点都有相同的软件版本和配置文件。在部署过程中,需要注意各个节点之间的通信,包括网络连接、防火墙设置、主机名解析等。确保集群节点之间能够互相访问,并且能够正常启动和停止Hadoop服务。

5.集群测试和优化

完成集群部署后,进行一系列的测试和性能优化工作。可以使用一些标准的Hadoop测试任务(如WordCount、Sort等)对集群进行压力测试。观察任务的执行时间、资源占用情况、数据分布等指标,根据结果进行性能调优,包括调整配置参数、增加节点、优化数据存储和计算等方面。此外,还应进行故障模拟和容错测试,确保集群在部分节点故障的情况下依然能够正常运行。

6.学习和扩展

搭建伪分布式集群不仅是为了实现一个运行的Hadoop环境,更重要的是学习和理解分布式计算的核心概念和机制。在搭建过程中,要积极探索和研究Hadoop的原理,理解其如何管理数据、调度任务、处理故障等。此外,还可以尝试扩展集群规模,增加节点数量,进行更大规模的数据处理和并行计算,以进一步提升对Hadoop的理解。

总结起来,搭建Hadoop伪分布式集群是一个学习和实践的过程。需要有足够的耐心和细心,仔细阅读官方文档和参考资料,并能够灵活应对可能出现的问题和挑战。通过这个过程,不仅可以构建一个可用的分布式计算环境,还能够深入理解Hadoop的工作原理和分布式系统的设计思想。

  • 35
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

卡林神不是猫

如果您觉得有帮助可以鼓励小卡哦

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值