记录安装Hadoop过程
ubuntu版本19.04
jdk1.8.0_241
hadoop版本3.2.1
单击版
准备过程
1)安装vim
2)安装ssh server
3)安装pdsh,可并行的执行对目标主机的操作,对于批量执行命令和分发任务有很大的帮助,在使用前需要配置ssh无密码登录。
4)配置ssh无密码登录
ssh localhost测试连接
5)下载jdk1.8
https://pan.baidu.com/s/1XKPY5bEB9XHkKN12aX3vGw
提取码:n2qc
6)用tar -zxvf jdk-8u241-linux-x64.tar.gz解压压缩包
7)sudo vim /etc/profile 在最末尾添加如下信息,配置jdk路径(按自己路径修改)
8)在hadoop用户家目录下用vim .bashrc,在最后加上source /etc/profile,然后用命令source .bashrc,不这样做可能每次打开终端都无法找到jdk路径,避免每次打开终端都要source /etc/profile
9)查看java版本信息
下载Hadoop3.2.1
1)在镜像中的stable下选择hadoop-3.2.1.tar.gz下载
https://mirror.bit.edu.cn/apache/hadoop/common/
2)将压缩包解压到/usr/local/下
3)更改解压缩后的文件名为hadoop,并将hadoop文件及其子目录的用户和用户组都改为hadoop,前提要创建好hadoop用户和hadoop用户组
4)修改一下hadoop下的etc/hadoop/hadoop-env.sh文件,添加下载的java路径
5)查看hadoop版本信息
6)安装好后默认在非分布式模式下运行即单击版,作为单个java进程,这对调试很有用,测试运行一下,正则表达式’dfs[a-z.]+'表示匹配dfs开头的任意个小写英文字符,统计符合表达式的单词出现次数
7)查看运行结果
8)Hadoop默认不覆盖结果文件,所以再次运行上述实例会提示出错,要先删除./output文件
sudo rm -r ./output/
伪分布式配置
Hadoop的伪分布式模式是在单节点上运行,单节点本身既是NameNode也是DataNode,每个hadoop守护进程都在单独的Java进程中运行
1)在/usr/local/hadoop/下创建hadoop工作目录tmp,然后修改配置文件core-site.xml
添加如下内容
2)先创建好目录tmp/dfs/name和tmp/dfs/data,然后修改配置文件hdfs-site.xml
添加如下内容
3)格式化NameNode,这里执行后自动帮我在hadoop下创建了logs日志目录,之后hadoop守护进程的日志都会写入这个目录下
4)修改pdsh的rcmd type,用命令pdsh -q -w localhost查看pdsh的rcmd type是rsh,要将它改为ssh,hadoop守护进程才能启动
cd /etc/pdsh进入这个目录下用sudo vim rcmd_default,在文件中添加ssh,再source /etc/pdsh/rcmd_default就行了
再次查看可以发现rcmd type变成了ssh
5)开启NamaNode守护进程和DataNode守护进程
用jps查看进程信息
6)浏览Web界面的NameNode,默认的url为http://localhost:9870/
7)设置执行MapReduce作业所需的HDFS目录
8)将输入文件复制到分布式文件系统中
9)运行样例作业
10)两种方式查看结果
- 第一种
- 第二种
11)作业运行完后停止守护进程
配置单节点上的YARN
配置一些参数让作业运行再YARN上,并且启动另外两个守护进程ResourceManage和NodeManager
1)修改配置文件mapred-site.xml
添加内容如下
2)修改配置文件yarn-site.xml
添加内容如下
3)启动ResourceManager守护进程和NodeManager守护进程
4)浏览器界面查看ResourceManager,默认url为http://localhost:8088/
5)接着打开其它守护进程,然后用jps查看开启的进程信息
6)运行MapReduce作业
7)打开网页可以看到运行信息
8)查看运行结果
9)作业完成后,关闭所有进程