记录Ubuntu19.04安装hadoop3.2.1（单击版和伪分布式版）

最新推荐文章于 2021-08-21 19:17:14 发布

进击的鱼豆腐

最新推荐文章于 2021-08-21 19:17:14 发布

阅读量538

点赞数 1

分类专栏： hadoop 文章标签： hadoop java 分布式 linux 大数据

本文链接：https://blog.csdn.net/PAN_kid/article/details/105081001

版权

hadoop 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

记录安装Hadoop过程

ubuntu版本19.04
jdk1.8.0_241
hadoop版本3.2.1

单击版

准备过程

1）安装vim

2）安装ssh server

3）安装pdsh，可并行的执行对目标主机的操作，对于批量执行命令和分发任务有很大的帮助，在使用前需要配置ssh无密码登录。

4）配置ssh无密码登录

ssh localhost测试连接
配置密匙
5）下载jdk1.8
https://pan.baidu.com/s/1XKPY5bEB9XHkKN12aX3vGw
提取码：n2qc
6）用tar -zxvf jdk-8u241-linux-x64.tar.gz解压压缩包
解压jdk
7）sudo vim /etc/profile 在最末尾添加如下信息，配置jdk路径（按自己路径修改）
配置路径
8）在hadoop用户家目录下用vim .bashrc，在最后加上source /etc/profile，然后用命令source .bashrc，不这样做可能每次打开终端都无法找到jdk路径，避免每次打开终端都要source /etc/profile
在这里插入图片描述
添加source
进行source
9）查看java版本信息

下载Hadoop3.2.1

1）在镜像中的stable下选择hadoop-3.2.1.tar.gz下载
https://mirror.bit.edu.cn/apache/hadoop/common/
下载Hadoop
2）将压缩包解压到/usr/local/下
解压hadoop
3）更改解压缩后的文件名为hadoop，并将hadoop文件及其子目录的用户和用户组都改为hadoop，前提要创建好hadoop用户和hadoop用户组
在这里插入图片描述
4）修改一下hadoop下的etc/hadoop/hadoop-env.sh文件，添加下载的java路径
编辑hadoop-env.sh文件
添加java路径

5）查看hadoop版本信息
查看版本信息
6）安装好后默认在非分布式模式下运行即单击版，作为单个java进程，这对调试很有用，测试运行一下，正则表达式’dfs[a-z.]+'表示匹配dfs开头的任意个小写英文字符，统计符合表达式的单词出现次数

7）查看运行结果
查看结果
8）Hadoop默认不覆盖结果文件，所以再次运行上述实例会提示出错，要先删除./output文件

sudo rm -r ./output/

伪分布式配置

Hadoop的伪分布式模式是在单节点上运行，单节点本身既是NameNode也是DataNode，每个hadoop守护进程都在单独的Java进程中运行
1）在/usr/local/hadoop/下创建hadoop工作目录tmp，然后修改配置文件core-site.xml
修改core-site.xml文件
添加如下内容
添加内容
2）先创建好目录tmp/dfs/name和tmp/dfs/data，然后修改配置文件hdfs-site.xml
在这里插入图片描述
添加如下内容

3）格式化NameNode，这里执行后自动帮我在hadoop下创建了logs日志目录，之后hadoop守护进程的日志都会写入这个目录下

4）修改pdsh的rcmd type，用命令pdsh -q -w localhost查看pdsh的rcmd type是rsh，要将它改为ssh，hadoop守护进程才能启动
修改rcmd type
cd /etc/pdsh进入这个目录下用sudo vim rcmd_default，在文件中添加ssh，再source /etc/pdsh/rcmd_default就行了
在这里插入图片描述

再次查看可以发现rcmd type变成了ssh
查看pdsh
5）开启NamaNode守护进程和DataNode守护进程
开启守护进程
用jps查看进程信息

6）浏览Web界面的NameNode，默认的url为http://localhost:9870/
打开网页查看
7）设置执行MapReduce作业所需的HDFS目录
设置作业目录
8）将输入文件复制到分布式文件系统中
创建输入文件夹
复制文件
9）运行样例作业
运行作业
10）两种方式查看结果

第一种
第二种

11）作业运行完后停止守护进程

配置单节点上的YARN

配置一些参数让作业运行再YARN上，并且启动另外两个守护进程ResourceManage和NodeManager
1）修改配置文件mapred-site.xml 更改配置文件
添加内容如下

2）修改配置文件yarn-site.xml

添加内容如下
3）启动ResourceManager守护进程和NodeManager守护进程
启动yarn
4）浏览器界面查看ResourceManager，默认url为http://localhost:8088/
查看界面
5）接着打开其它守护进程，然后用jps查看开启的进程信息
查看信息
6）运行MapReduce作业
运行作业
7）打开网页可以看到运行信息
查看运行信息
8）查看运行结果

9）作业完成后，关闭所有进程
关闭进程

进击的鱼豆腐

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
记录Ubuntu19.04安装hadoop3.2.1（单击版和伪分布式版）

记录安装Hadoop过程单击版准备过程1）安装vim2）安装ssh server3）安装pdsh，可并行的执行对目标主机的操作，对于批量执行命令和分发任务有很大的帮助，在使用前需要配置ssh无密码登录。4）配置ssh无密码登录ssh localhost测试连接5）下载jdk1.8https://pan.baidu.com/s/1XKPY5bEB9XHkKN12aX3vG...
复制链接

扫一扫

专栏目录