大数据系统开发综合实验(一)Hadoop集群搭建

目录

一、实验环境及工具介绍

        1、集群环境(Linux)

        2、web环境

        3、开发环境(Windows)

        4、工具获取链接:

二、Hadoop安装配置

1. 配置VM-NAT网络

1.1 打开虚拟网络编辑器

1.2 选择更改设置

1.3 根据图示设置网络

2. 安装虚拟机(本教程使用三台独立安装,非克隆安装)

2.1 创建第一台虚拟机Hadoop01

2.2 安装centos7(hadoop01)

提醒:以下为重要部分,三台虚拟机均按此配置,只有IP不同

2.3 安装hadoop02,hadoop03

2.4 配置windows hosts

2.5 运行FinalShell,配置三台机器

2.6 修改hadoop01的hosts映射文件

2.7 关闭防火墙,关闭防火墙自启动(三台)

2.8 配置yum国内源(三台机器同时进行)

2.9 安装vim(三台机器)

2.10 安装Linux中必备常用支持库(三台)

2.11 配置三台主机之间的免密登录(三台分别执行)

注意:以下步骤只在hadoop01操作!!!

3. JDK安装(hadoop01安装)

3.1 自建软件安装目录

3.2 进入/export/software目录

4. Hadoop安装

4.1 上传安装包至/export/software

4.2 进入/export/software

(1)修改hadoop-env.sh文件。

 (2)修改core-site.xml文件

(3)修改hdfs-site.xml文件

(4)修改mapred-site.xml

(5)修改yarn-site.xml   

(6)修改slaves文件,打开该配置文件,先删除里面的内容(默认是localhost)

4.4 分别执行如下四条命令进行分发

4.5 执行结束后,hadoop02和hadoop03上执行命令:

4.6 格式化文件系统(在主节点hadoop01上执行)

5. 启动或关闭hadoop

5.1 jps命令查看开启的进程

5.2 查看HDFS和YARN集群状态


一、实验环境及工具介绍

        1、集群环境(Linux)


                VMware版本:16.2.4

                Linux版本:CentOS 6.7

                SSH连接工具:FinalShell

                Java版本:1.8

                Hadoop版本:2.7.4

                Hive版本:1.2.1

                MySQL版本:5.7.25

                Sqoop版本:1.4.6

        2、web环境

                Tomcat版本:7.0.47

                Sping版本:4.2.4

                Spring MVC版本:4.2.4

                MyBatis版本:3.2.8

                Echarts:4.2.1

        3、开发环境(Windows)

                Windows版本:Windows11专业版 / Windows10专业版

                Eclipse版本:Eclipse IDE for Enterprise Java and Web Developers

                Java版本:1.8

                Maven:3.3.9

        4、工具获取链接:

                链接:https://pan.xunlei.com/s/VNru73AEa4yTNQYlHlKRdE8WA1
                提取码:z5ea

二、Hadoop安装配置

1. 配置VM-NAT网络

1.1 打开虚拟网络编辑器

1.2 选择更改设置

1.3 根据图示设置网络

至此VM网络配置完成,保存退出至主页面

2. 安装虚拟机(本教程使用三台独立安装,非克隆安装)

2.1 创建第一台虚拟机Hadoop01

下图为设置hadoop02配置,配置hadoop01请忽略,hadoop03也在本步更改名称即可

至此虚拟机创建完成。

2.2 安装centos7(hadoop01)

鼠标点击屏幕,选择图示选项安装

不做更改,点击完成

提醒:以下为重要部分,三台虚拟机均按此配置,只有IP不同

Hadoop01:192.168.121.134

Hadoop02:192.168.121.135

Hadoop03:192.168.121.136

下图为hadoop02设置图,安装hadoop01跳过该图,hadoop03也在本图做更改,IP为192.168.121.136,主机名改为hadoop03

建议普通用户密码和root密码一致

重启进入系统后,当前系统有两个用户

user   自己设置的密码

root   自己设置的密码

登陆系统以后,使用

ping www.baidu.com

检测网络是否正常,不正常请重新配置,ping正常连通以后关机

下图为hadoop03展示ping命令正确运行,使用Ctrl+C停止命令执行

弹出安装镜像,该步骤还需取消启动时连接选项,图中未标出!

第一台虚拟机安装完成。

2.3 安装hadoop02,hadoop03

步骤与hadoop01相同,只需注意设置虚拟机名称和主机名称时更改为hadoop02,设置对应IP即可。

hadoop03相同操作。

2.4 配置windows hosts

该操作目的:后续hadoop搭建完成以后,使用hadoop01:50070访问hdfs web 服务

进入C:\Windows\System32\drivers\etc,使用记事本打开hosts,加入

192.168.121.134 hadoop01

192.168.121.135 hadoop02

192.168.121.136 hadoop03

2.5 运行FinalShell,配置三台机器

分别双击三台机器,连接,接受并保存密匙

选择全部会话,在全部会话上方输入命令,点击发送,会直接发送到三台机器,同时执行一个命令,避免重复操作

2.6 修改hadoop01的hosts映射文件

注:每次访问192.168.121.134的ip地址比较麻烦,所以采用主机名的方式进行配置。

输入如下命令:

vi /etc/hosts

添加下面内容:(其实就是三台虚拟机IP及各自对应的主机名)

192.168.121.134 hadoop01

192.168.121.135 hadoop02

192.168.121.136 hadoop03

点击屏幕,进入主机输入模式,按照正常vim模式编辑即可,三台机器进行同样操作

2.7 关闭防火墙,关闭防火墙自启动(三台)

分别执行下面两条命令(使用全部会话方式发送命令至三台机器):

systemctl stop firewalld
systemctl disable firewalld.service

2.8 配置yum国内源(三台机器同时进行)

备份默认源:

cp /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup

更改默认源:

sudo sed -e 's|^mirrorlist=|#mirrorlist=|g' \
         -e 's|^#baseurl=http://mirror.centos.org/centos|baseurl=https://mirrors.ustc.edu.cn/centos|g' \
         -i.bak \
         /etc/yum.repos.d/CentOS-Base.repo

重建缓存:

sudo yum makecache

2.9 安装vim(三台机器)

yum -y install vim-enhanced

配置vim

vim /etc/vimrc

加入以下信息:

set nu          " 设置显示行号

set showmode    " 设置在命令行界面最下面显示当前模式等

set ruler       " 在右下角显示光标所在的行数等信息

set autoindent  " 设置每次单击Enter键后,光标移动到下一行时与上一行的起始字符对齐

syntax on       " 即设置语法检测,当编辑C或者Shell脚本时,关键字会用特殊颜色显示

2.10 安装Linux中必备常用支持库(三台)

yum install -y gcc gdb strace gcc-c++ autoconf libjpeg libjpeg-devel libpng libpng-devel freetype freetype-devel libxml2 libxml2-devel zlib zlib-devel glibc glibc-devel glib2 glib2-devel bzip2 bzip2-devel ncurses ncurses-devel curl curl-devel e2fsprogs patch e2fsprogs-devel krb5-devel libidn libidn-devel openldap-devel nss_ldap openldap-clients openldap-servers libevent-devel libevent uuid-devel uuid net-tools

2.11 配置三台主机之间的免密登录(三台分别执行)

ssh-keygen -t rsa

输入上方命令后,回车两次即可

输入以下命令,查看生成的公私钥对:

cd .ssh

ls

将三台虚拟机的公钥拷贝到一台机器上:

ssh-copy-id hadoop01

hadoop01虚拟机中,定位到目录.ssh下面,输入ls

cd .ssh
ls

可以查看到出现一个文件authorized_keys,文件保存的就是三台机器的公钥

注意:以下步骤只在hadoop01操作!!!

authorized_keys发送给其它机器(hadoop01执行,其余不执行)

注意该步骤命令输入位置!回车即可运行命令

scp /root/.ssh/authorized_keys hadoop02:/root/.ssh;

scp /root/.ssh/authorized_keys hadoop03:/root/.ssh

验证免密登陆是否成功:

ssh hadoop02

验证完毕,输入exit,hadoop01将退出登录hadoop02,回到hadoop01

exit

至此,虚拟机安装完成

3. JDK安装(hadoop01安装)

3.1 自建软件安装目录

mkdir -p /export/software;

mkdir -p /export/data;

mkdir -p /export/servers

3.2 进入/export/software目录

cd /export/software

上传JDK安装包

解压文件

tar -zxvf jdk-8u161-linux-x64.tar.gz -C /export/servers/

查看解压缩后的jdk文件夹,并利用mv命令对文件夹进行重命名。

cd /export/servers/

ls

mv jdk1.8.0_161/ jdk

ls

配置JDK环境变量

vim /etc/profile

添加如下内容:

#JAVA_HOME

export JAVA_HOME=/export/servers/jdk

export PATH=$PATH:$JAVA_HOME/bin

编辑保存好后,重启使配置文件生效。

source /etc/profile

JDK环境验证

java -version

4. Hadoop安装

4.1 上传安装包至/export/software

4.2 进入/export/software

cd /export/software

解压hadoop压缩包。解压后的目标路径为/export/servers

tar -zxvf hadoop-2.7.4.tar.gz -C /export/servers/

进入到/export/servers目录下

cd /export/servers

ls

配置Hadoop系统环境变量

vim /etc/profile

添加如下内容:

export HADOOP_HOME=/export/servers/hadoop-2.7.4

export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

输入如下命令,使配置文件生效

source /etc/profile

查看hadoop版本

hadoop version

4.3 配置Hadoop集群主节点。

(1)修改hadoop-env.sh文件。

命令:

cd /export/servers/hadoop-2.7.4/etc/hadoop/

vim hadoop-env.sh

添加如下内容:

export JAVA_HOME=/export/servers/jdk

 (2)修改core-site.xml文件

命令:

vim core-site.xml

添加内容如下:

<configuration>

    <!-- 用于设置Hadoop的文件系统,由URI指定 -->

    <property>

        <name>fs.defaultFS</name>

    <!-- 用于指定namenode地址在hadoop01机器上 -->

        <value>hdfs://hadoop01:9000</value>

    </property>

    <!-- 配置Hadoop的临时目录,默认/tmp/hadoop-${user.name} -->

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/export/servers/hadoop-2.7.4/tmp</value>

    </property>

</configuration> 

(3)修改hdfs-site.xml文件

命令:

vim hdfs-site.xml

<configuration>

    <!-- 指定HDFS副本的数量 -->

    <property>

        <name>dfs.replication</name>

        <value>3</value>

    </property>

    <!-- secondary namenode 所在主机的ip和端口-->

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>hadoop02:50090</value>

    </property>

</configuration> 

添加如下内容:

(4)修改mapred-site.xml

这里我们首先拷贝下mapred-site.xml.template文件,命名为mapred-site.xml

cp mapred-site.xml.template mapred-site.xml

接下来编辑此文件

vim mapred-site.xml

添加的内容如下:

<configuration>

    <!-- 指定MapReduce运行时框架,这里指定在Yarn上,默认是local -->

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

</configuration>

(5)修改yarn-site.xml   
vim yarn-site.xml

添加的内容如下:

<configuration>

    <!-- 指定Yarn集群的管理者(ResourceManager)的地址 -->

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>hadoop01</value>

    </property>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

</configuration> 

(6)修改slaves文件,打开该配置文件,先删除里面的内容(默认是localhost)
vim slaves

然后添加如下内容:

hadoop01

hadoop02

hadoop03

此集群主节点hadoop01中一些配置配置文件配置完成。
接下来将配置好的文件分发到另外两个节点下hadoop02和hadoop03。

4.4 分别执行如下四条命令进行分发

scp /etc/profile hadoop02:/etc/profile

scp /etc/profile hadoop03:/etc/profile

scp -r /export/servers/ hadoop02:/export/

scp -r /export/servers/ hadoop03:/export/

4.5 执行结束后,hadoop02和hadoop03上执行命令:

source /etc/profile

4.6 格式化文件系统(在主节点hadoop01上执行)

hdfs namenode -format

格式化文件系统这个操作只能在第一次启动hdfs集群时来操作,后面不能再进行格式化!!!

5. 启动或关闭hadoop

#启动hadoop

start-dfs.sh && start-yarn.sh

#关闭hadoop

stop-dfs.sh && stop-yarn.sh

5.1 jps命令查看开启的进程

jps

确保:hadoop01有5个,hadoop02有4个,hadoop03有3个

5.2 查看HDFS和YARN集群状态

(1)在浏览器访问hadoop01:50070或者192.168.121.134:50070查看HDFS集群状态

(2)浏览器访问hadoop01:8088或者192.168.121.134:8088查看YARN集群管理页面.

  • 22
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
Hadoop集群搭建实验的收获和感想主要包括以下几个方面: 收获: 1. 技术知识:通过实验,深入了解了Hadoop生态系统中的核心组件,如HDFS、MapReduce、YARN等。掌握了如何配置和部署集群,以及如何使用Hadoop工具进行数据存储、处理和分析。 2. 实践经验:实验中遇到了许多实际问题,如网络配置、节点故障等,通过解决这些问题,积累了宝贵的实践经验。 3. 集群管理:学会了如何管理和维护Hadoop集群,包括监控集群状态、调整资源配置、优化性能等。 4. 大数据处理:认识到Hadoop在处理大数据方面的优势,如高吞吐量、低延迟、可扩展性等。这为今后在大数据领域的工作或学习中提供了坚实的基础。 感想: 1. 挑战与成就感:实验过程中遇到了许多挑战,如复杂的配置过程、漫长的部署时间等。但每当解决一个问题,都会感到非常有成就感。 2. 团队合作:搭建Hadoop集群需要多人的协作,大家共同解决问题、分享信息,有助于增强团队凝聚力。 3. 持续学习:Hadoop是一个不断发展的生态系统,需要持续学习以跟上技术的发展。实验过程中学到的知识只是冰山一角,后续还需要进一步深入学习。 4. 实际应用:通过实验,深刻体会到Hadoop在现实生活中的应用,认识到大数据的重要性,以及掌握Hadoop技术的重要性。 总的来说,通过搭建Hadoop集群实验,不仅提高了技术水平,还积累了实践经验,了解了大数据的实际应用,并认识到持续学习的重要性。同时,也感受到了挑战与成就感的交织,以及团队合作的价值。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值