南京邮电大学通达学院大数据基础实践教程及报告

大数据基础实践
一、目的和要求

  1. 实验目的:
    学会Hadoop安装部署。
    学会搭建 Hadoop 伪分布式环境
  2. 实验任务:
    虚拟机安装
    CentOs系统的安装
    Hadoop集群的搭建
    在hadoop集群中实现统计单词出现次数
    二、实验环境(实验设备)
    1.vmware15
    2.CentOS-7-x86_64-Minimal-2009.iso
    3.Hadoop-2.8.1.tar.gz
    4.jdk-8u171-linux-x64.tar.gz
    5.Xshell-7.zip
    6.xftp-7.zip
    三、实验内容、原理、过程描述
    步骤1:创建相关文件夹
    首先,我们在安装VMware之前需要找到一个磁盘(最好不要放到C盘)创建一个Linux文件夹,然后在文件夹里创建如下文件:
    在这里插入图片描述

步骤2:VMware15 安装
最简单的下载方法:在自己的电脑上安装一个腾讯电脑管家,去腾讯电脑管家里自带的软件市场里下载。如下图所示:
在这里插入图片描述

在这里插入图片描述

最好不要去官网下,很有可能被和谐,而且还需要收费!!!
VMware15 安装主体默认安装,有一些是需要改动的地方,改动的地方如下图所示:在这里插入图片描述

最后的许可证密钥最好是去CSDN上搜,百度上搜到的大多都是过期的。
步骤3:创建虚拟机
首先,打开VMware,选择新建虚拟机,自定义安装,默认主体安装,然后选择稍后安装操作系统,操作系统选择:Linux、CentOS 7 64位,虚拟机名称:centos,位置放到前面设置好的os文件夹中,然后网络类型根据自己的条件来设置:台式机可以选择桥接模式,笔记本可以选择NAT模式,接下来默认安装即可。
步骤4:CentOS系统的下载与安装
下载地址为:
https://mirrors.tuna.tsinghua.edu.cn/centos/7.9.2009/isos/x86_64/
接下来配置虚拟机,右击刚创建的虚拟机,选择设置,先选择CD/DVD,然后选择启动时连接再选择使用Centos7的ISO映像文件即可。
接下来重新打开虚拟机,选择下图中的第一个:
在这里插入图片描述

然后配置语言和时间,选择软件安装-最小安装,开始安装,设置root密码,重启。
步骤5:配置防火墙
进入虚拟机后,输入用户名和密码(注意密码系统不显示,需要盲输,最好用数字小键盘),查看防火墙:systemctl status firewalld,如下图所示,防火墙即为开:
在这里插入图片描述

然后关闭防火墙—永久关闭:systemctl disable firewalld,设置配置文件,使防火墙不再执行:vi /etc/selinux/config,再次查看防火墙:systemctl status firewalld,如下图所示,防火墙即为关:
在这里插入图片描述

接着重启,上述操作生效:reboot,关机:poweroff。
步骤6:Hadoop集群的搭建
首先,右击centos,点击管理,点击克隆,点击克隆自虚拟机中的当前状态,点击创建完整克隆,名称和位置选自之前创立的三个文件夹:master、slave1、slave2。
步骤7:更改电脑网络设置
首先,需要找到桌面上的网络图标,如下图所示:
在这里插入图片描述

然后找到这个图标,如下图所示:
在这里插入图片描述

点击属性,点击左侧更改适配器设置,找到WLAN,点击属性,点击共享,第一个方框打钩,家庭网络连接至:VMware Network Adapter VMent8,接着点击VMware Network Adapter VMent8,点击属性,点击Internet协议版本4(TCP/IPv4),接着如下图配置:
在这里插入图片描述

步骤8:配置虚拟机网络
首先,进入虚拟机,点击编辑,点击虚拟网络编辑器,选中VMent8网关,点击更改设置,然后仿照下图设置:
在这里插入图片描述

步骤9:配置虚拟机
首先需要配置虚拟机名称,就是把虚拟机内的节点名称全部改为自己所设置的节点名称,代码如下:
在这里插入图片描述
在这里插入图片描述

修改后,主节点名并不会直接显示,需要重启后才会显示。
接着设置主节点的IP地址,进入设置界面的代码为:# vi /etc/sysconfig/network-scripts/ifcfg-ens33 ,按照如下界面修改:
在这里插入图片描述

然后重启网卡:service network restart,重启电脑:reboot,重启后的效果如下图所示:
在这里插入图片描述

注意!!!编辑linux文件:按字母a就可以编辑文件,方向键可以选择位置。到指定位置后就可以输入内容。
保存退出:先按ESC,再输冒号”:”,最后输入 wq,按回车退出。
GATWAY 为主机中的网关,最后可以可以用命令ip addr来查看ip地址是否修改成功。
然后按上述操作更改子节点的节点名称和IP地址,slave1的IP地址可为:192.168.3.102,slave2的IP地址可为:192.168.3.103,其余操作一样。
最后可以用互ping的方法,看每个节点之间是否联通,方法是:ping+节点的IP地址即可,还可以用如下方法验证:
在这里插入图片描述
在这里插入图片描述

步骤9:安装Xshell和Xftp
下载Xshell的网址为:https://xshell.en.softonic.com/
下载Xftp的网址为:https://www.xshell.com/zh/free-for-home-school/
全部默认安装即可。注意!!!安装后可能有的同学会出现使用不了的情况,不用害怕,直接卸载重新安装即可,一定要留好安装包!!!如果还不能使用就重启。然后打开Xshell连接虚拟机,找到左上角文件,点击新建,然后按照如下图所示操作:

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

slave1、slave2操作同上。
然后Xftp可通过Xshell打开,具体操作如下图:
在这里插入图片描述
在这里插入图片描述

步骤10:配置 SSH 无密码登录
首先修改master节点中的hosts文件,指令为:vi /etc/hosts,输入如下文本:
在这里插入图片描述

然后远程拷贝到其他两个子节点上,指令如下:
scp -r /etc/hosts 192.168.137.102:/etc/hosts
scp -r /etc/hosts 192.168.137.103:/etc/hosts
具体效果和操作如下图所示:
在这里插入图片描述

在master中输入免密命令:# ssh-keygen -t rsa,显示效果和操作如下图所示:
在这里插入图片描述

然后配置访问自己的免密,指令为:ssh-copy-id master,执行和显示效果如下图所示:
在这里插入图片描述

然后再将免密配置文件远程拷贝到其他两台电脑上,指令如下:
scp -r /root/.ssh slave1:/root
scp -r /root/.ssh slave2:/root
执行效果如下:
在这里插入图片描述

步骤11:jdk的安装和配置
在进行jdk的安装和配置之前,我们需要做一些准备工作,首先,你需要要学会Linux系统下的基本操作
cd / 进入根目录
cd /文件名/文件名/…/ 可以进入到你想进入的文件夹中
mkdir 文件名 创建文件夹
rm -rf 文件名 删除文件夹
ls 查看文件夹下面的目录
然后我们需要下载一些压缩包,如下图所示:
在这里插入图片描述

其中jdk包的下载地址为:
https://www.oracle.com/cn/java/technologies/downloads/
hbase的下载地址为:
https://archive.apache.org/dist/hbase/2.1.0/
Hadoop的下载地址为:
https://archive.apache.org/dist/hadoop/core/hadoop-2.7.5/
apache的下载地址为:
https://mirrors.tuna.tsinghua.edu.cn/apache/hive/
mysql-connector的下载地址为:
https://mvnrepository.com/artifact/mysql/mysql-connector-java
mysql的下载地址为:
https://downloads.mysql.com/archives/community/
具体版本信息见下图:
在这里插入图片描述

然后在master的opt目录中创建soft目录,具体操作看下图:
在这里插入图片描述

然后连接Xftp,上传软件,如下图所示:
在这里插入图片描述

然后进入soft目录中,查看soft中的文件
在这里插入图片描述

接着解压下面两个文件,解压命令如下:

解压命令 长文件名可以输入部分按tab键自动补全

tar -zxvf jdk-8u171-linux-x64.tar.gz
tar -zxvf hadoop-2.8.1.tar.gz
解压后的目录会变成蓝色
在这里插入图片描述

然后在opt目录中先创建一个目录(bigdata),命令如下:

命令–先进入opt目录

mkdir bigdata

返回/opt/soft, 移动(在移动过程中把jdk1.8.0_171改为jdk)

mv jdk1.8.0_171 /opt/bigdata/jdk

移动hadoop

mv hadoop-2.8.1 /opt/bigdata/hadoop (注意自己安装包的具体版本)

进入/opt/bigdata,查看,如下图所示:

在这里插入图片描述

接着编辑/etc/profile文件,输入配置jdk环境的内容,如下图所示:
在这里插入图片描述

然后使配置文件生效,查看是否配置成功:
在这里插入图片描述

然后在两台子节点slave1,slave2的opt目录中创建子目录bigdata.同上述在master节点中一样,然后将master中jdk远程拷贝到slave1和slave2的opt/bigdata目录中,代码如下:(注意这里又回到了主节点master进行操作)
scp -r jdk slave1:/opt/bigdata
scp -r jdk slave2:/opt/bigdata
再将master中的配置文件拷贝到slave1和slave2中,代码如下图所示:
在这里插入图片描述

然后在slave1和slave2中执行配置文件,使其生效,如下图所示:

在这里插入图片描述
做到这里,大家可以在虚拟机中进行快照,具体操作如下图所示:
在这里插入图片描述
在这里插入图片描述

别忘两个字节点。
在这里给大家讲一下为什么要快照,快照是干什么用的,快照就相当于保存,虚拟机就相当于容器,我们把在Xshell里做的所有操作有进程全部保存在快照这里,方便我们后续操作失误后进行纠错,或者从新回来做,直接在虚拟机中点击快照即可,所以大家可以根据自己的实力进行快照。
步骤12:Hadoop的配置与启动
首先,我们需要回到主节点根目录下,然后进入到hadoop/etc/hadoop目录,操作如下:
在这里插入图片描述

接下来就是编辑相关文件

  1. 编辑hadoop-env.sh,如下图所示:
    在这里插入图片描述

2.编辑core-site.xml文件

在这里插入图片描述
在这里插入图片描述

  1. 编辑hdfs-site.xml文件

在这里插入图片描述
4. 编辑mapred-site.xml
在这里插入图片描述

vi mapred-site.xml
在这里插入图片描述

  1. 编辑yarn-site.xml
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  1. 在workers中配置datanode(在hadoop3.0以上的版本中不用看)
    在这里插入图片描述

删除localhost,并输入如下内容:
在这里插入图片描述

  1. 修改以下四个文件(在hadoop3.0以上的版本中不用看)
    进入hadoop/sbin 目录,在 start-dfs.sh 和 stop-dfs.sh 中添加下述内容

在这里插入图片描述
在这里插入图片描述

在 start-yarn.sh 和stop-yarn.sh 中添加下述内容
在这里插入图片描述

在这里插入图片描述

然后回到hadoop文件夹下配置环境变量

在这里插入图片描述

然后执行生效,如下图所示:
在这里插入图片描述

最后就是将hadoop和配置文件发送到子节点(注意这里又换了文件夹目录)

  1. 发送hadoop
    在这里插入图片描述

  2. 发送配置文件
    在这里插入图片描述

  3. 在子节点执行配置文件,使其生效
    在这里插入图片描述

接下来进行hadoop启动与验证,首先格式化hadoop集群,格式化命令如下:
(注意这里的目录又换成了主节点的根目录)
在这里插入图片描述

启动成功的截图如下:
在这里插入图片描述

然后进入/hadoop/sbin目录,启动
在这里插入图片描述

接着输入如下指令:

在这里插入图片描述

输入命令jps,效果如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

最后在浏览器中验证hadoop是否启动成功,首先输入192.168.137.101:50070,出现如下界面即可:
在这里插入图片描述

然后输入192.168.137.101:8088,出现如下界面即可:
在这里插入图片描述

说明:在win10系统中,若上述两个网址可能打不开,可关闭windows的防火墙试试。
步骤13:Hadoop集群初体验
(1)打开HDFS的UI, 查看分布式文件系统里的数据文件.
在这里插入图片描述

可以看到新建的HDFS上没有任何数据文件。

(2)创建文件,并上传到HDFS上,创建word.txt文件(最好在里面写一些东西)
在HDFS上创建文件夹(注意此时的节点是根目录)
在这里插入图片描述

上传文件(注意文件夹路径,word.txt文件在哪,路径就写哪)
在这里插入图片描述

(3)在Hadoop集群中运行程序(这时的节点是在data文件夹下面)
(注意自己的hadoop版本,因人而异)
在这里插入图片描述

在这里插入图片描述

最后如图所示,实验成功!!!

四、调试过程中的问题
(1)在输入jps之后主结点显示不全;
解决方法:因为我们格式化了hadoop导致主节点没有启动成功,因此需要输入
Start-dfs.sh和start-yarn.sh重新启动主节点,在输入jps则可以显示完全。
(2)遇到的问题:在最后启动虚拟机时,在主节点master输入jps指令后,应显示5个节点,但仅显示4个。
解决方法:我在网上搜集了许多关于虚拟机未能启动的资料,指导书当中在配置jdk与hadoop环境变量时,所给的变量都是指导书中老师的主机名为主的变量,因此在我自己的电脑中,始终不能出现namenode,所以我重新进入环境变量配置,将hdp01这个变量改为了我自己所设置的主机名mster,再重新启动虚拟机,便出现了5个。
(3)最开始不能进入到虚拟机系统。
解决方法:密码要用小键盘输,然后密码是不显示的,所以一定不要输错。
(4)linux系统基础操作不会。
解决方法:一些盘符操作还有删除啊,创建啊都不会,后来上网搜索之后学习才会,然后方便了正常运行。
(5一定要注意一些版本问题,然后自己的版本可能跟图片上的不一样,然后需要改进,然后还有一些比如说word文本文件是空的话,说明你没有在word里面写东西,如果写东西的话它就能正常运行且显示啊。
五、课程设计总结
课程设计过程的收获有:在这不断的调试、改动的过程中也让我明白了养成良好编程习惯的益处,一定要认真仔细,能不写错就不写错。在不断的出错与改错的过程中,我学到了很多关于编程和调试程序的知识,使自己的知识体系得到了一定的完善,也使我对平时所学有了很多的了解与更深的理解。面对一系列的问题,失败了尝试,再失败再尝试……通过这次的设计与编程,我发现了自己在编程及对软件开发相关知识的不足,在以后的学习实践中,我要取长补短,敢想善问,不断加强自身在专业知识方面的能力,为以后的学习与工作打下坚实的基础。遇到的问题在上述板块有所体现。程序调试能力的思考,对该课程组织和考核方式的建议就是不太喜欢录视频,如果可以不录视频的话就更好啦。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

请再跳高一点

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值