记录Ubuntu19.04安装hadoop3.2.1(单击版和伪分布式版)

记录安装Hadoop过程

ubuntu版本19.04
jdk1.8.0_241
hadoop版本3.2.1

单击版

准备过程

1)安装vim
安装vim
2)安装ssh server
安装ssh
3)安装pdsh,可并行的执行对目标主机的操作,对于批量执行命令和分发任务有很大的帮助,在使用前需要配置ssh无密码登录。
安装pdsh
4)配置ssh无密码登录
配置ssh无密码
ssh localhost测试连接
配置密匙
5)下载jdk1.8
https://pan.baidu.com/s/1XKPY5bEB9XHkKN12aX3vGw
提取码:n2qc
6)用tar -zxvf jdk-8u241-linux-x64.tar.gz解压压缩包
解压jdk
7)sudo vim /etc/profile 在最末尾添加如下信息,配置jdk路径(按自己路径修改)
配置路径
8)在hadoop用户家目录下用vim .bashrc,在最后加上source /etc/profile,然后用命令source .bashrc,不这样做可能每次打开终端都无法找到jdk路径,避免每次打开终端都要source /etc/profile
在这里插入图片描述
添加source
进行source
9)查看java版本信息
查看java版本信息

下载Hadoop3.2.1

1)在镜像中的stable下选择hadoop-3.2.1.tar.gz下载
https://mirror.bit.edu.cn/apache/hadoop/common/
下载Hadoop
2)将压缩包解压到/usr/local/下
解压hadoop
3)更改解压缩后的文件名为hadoop,并将hadoop文件及其子目录的用户和用户组都改为hadoop,前提要创建好hadoop用户和hadoop用户组
在这里插入图片描述
4)修改一下hadoop下的etc/hadoop/hadoop-env.sh文件,添加下载的java路径
编辑hadoop-env.sh文件
添加java路径

5)查看hadoop版本信息
查看版本信息
6)安装好后默认在非分布式模式下运行即单击版,作为单个java进程,这对调试很有用,测试运行一下,正则表达式’dfs[a-z.]+'表示匹配dfs开头的任意个小写英文字符,统计符合表达式的单词出现次数
测试运行
7)查看运行结果
查看结果
8)Hadoop默认不覆盖结果文件,所以再次运行上述实例会提示出错,要先删除./output文件

sudo rm -r ./output/

伪分布式配置

Hadoop的伪分布式模式是在单节点上运行,单节点本身既是NameNode也是DataNode,每个hadoop守护进程都在单独的Java进程中运行
1)在/usr/local/hadoop/下创建hadoop工作目录tmp,然后修改配置文件core-site.xml
修改core-site.xml文件
添加如下内容
添加内容
2)先创建好目录tmp/dfs/name和tmp/dfs/data,然后修改配置文件hdfs-site.xml
在这里插入图片描述
添加如下内容
在这里插入图片描述
3)格式化NameNode,这里执行后自动帮我在hadoop下创建了logs日志目录,之后hadoop守护进程的日志都会写入这个目录下
格式化namenode
4)修改pdsh的rcmd type,用命令pdsh -q -w localhost查看pdsh的rcmd type是rsh,要将它改为ssh,hadoop守护进程才能启动
修改rcmd type
cd /etc/pdsh进入这个目录下用sudo vim rcmd_default,在文件中添加ssh,再source /etc/pdsh/rcmd_default就行了
在这里插入图片描述
添加ssh
再次查看可以发现rcmd type变成了ssh
查看pdsh
5)开启NamaNode守护进程和DataNode守护进程
开启守护进程
用jps查看进程信息
在这里插入图片描述
6)浏览Web界面的NameNode,默认的url为http://localhost:9870/
打开网页查看
7)设置执行MapReduce作业所需的HDFS目录
设置作业目录
8)将输入文件复制到分布式文件系统中
创建输入文件夹
复制文件
9)运行样例作业
运行作业
10)两种方式查看结果

  • 第一种
    查看结果
    查看结果
  • 第二种
    查看结果
    11)作业运行完后停止守护进程
    停止进程

配置单节点上的YARN

配置一些参数让作业运行再YARN上,并且启动另外两个守护进程ResourceManage和NodeManager
1)修改配置文件mapred-site.xml更改配置文件
添加内容如下
添加内容
2)修改配置文件yarn-site.xml
添加内容
添加内容如下添加内容
3)启动ResourceManager守护进程和NodeManager守护进程
启动yarn
4)浏览器界面查看ResourceManager,默认url为http://localhost:8088/
查看界面
5)接着打开其它守护进程,然后用jps查看开启的进程信息
查看信息
6)运行MapReduce作业
运行作业
7)打开网页可以看到运行信息
查看运行信息
8)查看运行结果
查看运行结果
9)作业完成后,关闭所有进程
关闭进程

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值