基于Ubuntu Kylin系统在Hadoop的环境下调用MapReduce对单词WordCount计数
一、首先在VB虚拟机中安装基本配置(基于Ubuntu Kylin已安装完毕)
1、首先在终端中创建一个hadoop账户(若不想创建可跳过hadoop账户创建)
sudo useradd -m hadoop -s /bin/bash
2、设置hadoop账户的密码
sudo passwd hadoop
3、为 hadoop 用户增加管理员权限,为防止后续操作出现权限不够的情况
sudo adduser hadoop sudo
最后注销当前账户登入hadoop账户
4、登录hadoop账户后,我们对apt进行更新,在终端下输入以下命令
sudo apt-get update
若出现更新不了的情况,请前往系统设置——软件和更新——下载自源选择https://mirrors.aliyun.com/ubuntu,将更新源更改完成后重新尝试输入上述命令
5、装一个vim的编辑器,后期编辑文档比vi好用,辨别文字识别度更高,vi编辑器界面只有黑白,vim对于不同类型的文字有不同的颜色
sudo apt-get install vim
在安装过程中,遇到确认在提示出填写y即可。
6、集群、单节点模式都需要用到 SSH 登陆,Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server
sudo apt-get install openssh-server
安装完后,尝试进行登录
ssh localhost
此时会有如下提示(SSH首次登陆提示),输入 yes 。然后按提示输入密码 hadoop,这样就登陆到本机了。
但这样登陆是需要每次输入密码的,我们需要配置成SSH无密码登陆比较方便。
首先退出刚才的 ssh,就回到了我们原先的终端窗口,然后利用 ssh-keygen 生成密钥,并将密钥加入到授权中:
exit # 退出刚才的 ssh localhost
cd ~/.ssh/ # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa # 会有提示,都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys # 加入授权
此时再用 ssh localhost 命令,无需输入密码就可以直接登陆了,如下图所示
二、安装Java环境
1、安装JAVA环境采用手动安装,选择的JAVA安装包版本是JDK1.8的安装包jdk-8u162-linux-x64.tar.gz,安装包放在了坚果云里面,有需要的可以点击这个链接(访问密码:is03K4)。
接下来我们对JAVA安装包进行安装,打开终端,输入如下命令(安装包已从Windows移动到Ubuntu中)。
cd /usr/lib
sudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件
cd ~ #进入hadoop用户的主目录
cd 下载 #通过vb的共享文件夹方式把JDK安装包jdk-8u162-linux-x64.tar.gz从Windows上传到到Ubuntu的该目录下
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm #把JDK文件解压到/usr/lib/jvm目录下
2、想确认安装包是否已到指定路径,可使用下列命令进行查看
cd /usr/lib/jvm #切换到/usr/local/jvm这个路径
ls #查看当前文件夹有什么文件
3、设置JAVA环境变量
cd ~
vim ~/.bashrc
通过上面的vim编辑器,打开环境变量配置文件.bashrc,在文件开头添加如下几行内容(进入vim编辑器中,按键盘“ i ”进入编辑模式)
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
编辑完后,按Esc退出编辑模式,按Shift+冒号,进入文本命令行模式,输入wq,保存并退出回到终端
4、执行如下命令让.bashrc文件的配置立即生效,并用命令查看是否安装成功
source ~/.bashrc #让.bashrc文件的配置立即生效
java -version #查看是否安装成功
若返回如下信息,则代表JAVA环境安装成功
三、安装Hadoop
1、安装Hadoop,我选择的是Hadoop 2.10.0版本的安装包hadoop-2.10.0.tar.gz,可以点击这里进行下载(访问密码:KE3npb)
接下来我们对Hadoop安装包进行安装,打开终端,输入如下命令(安装包已从Windows移动到Ubuntu中)。
sudo tar -zxf ~/下载/hadoop-2.10.0.tar.gz -C /usr/local # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.10.0/ ./hadoop # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop # 修改文件权限
2、查看Hadoop解压完后是否可用,可使用如下命令来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息
cd /usr/local/hadoop
./bin/hadoop version
3、下面对Hadoop进行伪分布式的配置(Hadoop默认安装好单机配置)
(1)Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,我们需要对core-site.xml 和 hdfs-site.xml这两个配置文件进行修改,使用vim编辑器对配置文件进行修改,每个配置以声明 property 的 name 和 value 的方式来实现。
cd /usr/local/hadoop/etc/hadoop #进入到hadoop文件夹中,core-site.xml 和 hdfs-site.xml这两个配置文件都在这个文件夹里面
(2)在进行修改配置文件前,需要创建相应的文件夹进行存放,否则在后面的操作中,不能够启动Hadoop
sudo mkdir /usr/local/hadoop/tmp
sudo mkdir /usr/local/hadoop/tmp/dfs/name
sudo mkdir /usr/local/hadoop/tmp/dfs/data
(3)对core-site.xml进行修改
vim core-site.xml
在配置文件中找到下面这个标签对
<configuration>
</configuration>
在这个标签对中插入下列内容
<property>