大数据处理架构hadoop分布式文件系统搭建（HDFS）上

秦玉吖

已于 2023-11-13 10:02:48 修改

阅读量119

点赞数 1

文章标签： hadoop 架构 hdfs

于 2023-10-18 17:41:13 首次发布

本文链接：https://blog.csdn.net/m0_75017736/article/details/133882262

版权

搭建过程中使用到的软件，安装包等有VMware Workstations Pro17，ubuntu-22.04.2-desktop-amd64，Xshell7，xftp7，hadoop-3.3.4，jdk1.8.0-351.

一，创建配置虚拟机

1.打开VMwarel7，点击主页选择创建新的虚拟机

2.创建虚拟机页面选择自定义

3.兼容性默认选择即可

4.安装来源选择稍后安装操作系统(此处视情况而定，后期使用需要可选择其他)

5.客户机操作系统，选择Linux(可视需求选择)，版本选择Ubuntu64位

6.命名虚拟机，名称:(字母开头不区分大小写可接数字可自行命名)，位置:(建议电脑分盘D盘建立专门文件夹存放方便管理)

7.处理器配置默认即可(如有需要可按照需求更改)

8.虚拟机内存:不能小于最小，大于最大，在此范围按照个人需求修改，这里我选择推荐值

9.网络类型:一般选择NAT模式，如有需要可选择其他模式

10.I/0控制器类型若无其他需求选择推荐即可

11.磁盘类型若无其他需要选择推荐即可

12.磁盘:创建新虚拟磁盘(可按照个人需求选择)

13.磁盘容量:选择推荐(可按照个人需求更改)存储选择拆分为单个文件(有需要可选择其他方式)14.磁盘文件:默认即可

14.配置完成，点击完成

15.虚拟机开始页面点击CD/DVD(SATA)进入I虚拟机设置，连接:选择IS0映像文件，点击浏览找到使用的镜像文件(我的是Ubuntu22.04 )

16.点击VMware的编辑选择虚拟网络编辑器，选择NAT网络模式进行配置(根据本地IP修改相关配置，每个人的都不太一样，可网上查询按照个人需求配置)，配置DHCP并勾选会部选项(自动分配IP免网络配置)

17.点击开启此虚拟机进行安装，语言选择中文(按照自己的需求选择语言)，选择安装Ubuntu

18.键盘布局按照个人喜好布置

19.更新和其他软件:按照需求选择即可，我选择正常安装并更新

20.安装类型:按照个人需求选择，我选择清除再安装，出现的弹窗选择继续即可

21.时区:我选择上海，诸君可自选

22.设置用户名和密码，点击安装，等待安装，点击重启(安装时间长短取决于网速和电脑配置)

23.重启后输入设置的密码进入Ubuntu桌面，弹出的弹窗按照自己喜好选择即可

24.换源:点击Ubuntu桌面中的设置，选择关于，选择软件更新，选择源代码(输入设置的密码认证)，选择其他，选择阿里云，点击关闭(弹窗选择重新载入)。

二，hadoop单机模式配置

1，设置root用户并登录

sudo passwd #设置root用户的密码

2.更新，升级，下载相关组件

sudo apt-get update #更新

sudo apt-get upgrade -y #升级

sudo apt-get install vim #下载vim编辑器

sudo apt install net-tools #下载基础组件

3.修改主机名

hostname #查看主机名

hostnamectl set-hostname 主机名 #修改主机名

4.查看IP，配置映射，测试网络连通性

ifconfig #查看IP地址等相关信息

vim /etc/hostname #配置映射（输入i开始编辑，esc键shift键加:和wq保存退出）

ping 本机IP #测试内网连通性

ping baidu.com/taobao.com等 #测试外网连通性

5.查看本地ssh，若不存在则下载ssh，连接xshell。

rpm -qa | grep ssh #检查是否安装ssh

ps -e | grep ssh #检查ssh是否开启

sudo apt install openssh-server #安装ssh

连接xshell

点击接受并保存即可连接，若出现以下情况请不要着急跟着步骤慢慢解决

这个情况应该是sshd的设置不允许root用户用密码远程登录，在虚拟机中输入

vim /etc/ssh/sshd_config #修改此文件中的# Authentication:

/etc/init.d/ssh restart #重启ssh服务就可以了

如下，尽量在不破坏文件的基础上进行修改

重启

连接ssh

连接成功，问题解决

6.上传jdk，hadoop，解压，配置，测试

sudo apt install lrzsz #下载rz文件传输组件上传文件到虚拟机/opt/apps目录下

输入命令rz找到上传的文件，点击打开即可上传

也可以使用xftp文件传输软件进行上传

使用ls命令查看是否已经上传到虚拟机上，然后使用以下命令进行解压

tar -zxf 文件名 #解压过程不显示

tar -zxvf 文件名 #显示解压过程

删除压缩包

rm -rf 文件名 #删除文件

配置jdk，hadoop并测试

vim /etc/profile #使用vim编辑器进入/etc/profile文件末尾配置jdk和hadoop在该文件末尾键入以下内容

export JAVA_HOME=/opt/apps/jdk1.8.0_351 #jdk文件位置及文件名
export PATH=$PATH:$JAVA_HOME/bin #调用方式
export HADOOP_HOME=/opt/apps/hadoop-3.3.4 #hadoop文件位置及文件名
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin #调用

source /etc/profile #生效配置文件/etc/profile

hadoop version #运行hadoop查看运行状态，出现版本号等字样则运行成功

java -version #运行hadoop查看运行状态，出现版本号等字样则运行成功

配置hadoop-env.sh

vim /hadoop-3.3.4/etc/hadoop/hadoop-env.sh #编辑hadoop-env.sh文件在下图位置加入jdk，hadoop位置信息和版本信息

保存退出，这样单机模式hadoop便配置完成了简单测试一下

简单统计一下我喜欢的英文歌love story的歌词

cd ~ #进入~目录下

mkdir input #新建input目录

cd input #进入input目录

vi love-story.txt #新建love-story.txt复制网上搜来的英文歌词粘贴在里面

cp /opt/apps/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar ~ #复制/opt/apps/hadoop-3.3.4/share/hadoop/mapreduce/目录中的hadoop-mapreduce-examples-3.3.4.jar到~目录下统计单词时调用

hadoop jar hadoop-mapreduce-examples-3.3.4.jar wordcount ~/input ~/output #调用mapreduce-examples-3.3.4.jar进行单词统计

cd output #进入输出目录即output

cat part-r-00000#查看单词统计情况

秦玉吖

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据处理架构hadoop分布式文件系统搭建（HDFS）上

cp /opt/apps/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar ~ #复制/opt/apps/hadoop-3.3.4/share/hadoop/mapreduce/目录中的hadoop-mapreduce-examples-3.3.4.jar到~目录下统计单词时调用。export HADOOP_HOME=/opt/apps/hadoop-3.3.4 #hadoop文件位置及文件名。
复制链接

扫一扫