基于Ubuntu Kylin系统在Hadoop的环境下调用MapReduce对单词WordCount计数

最新推荐文章于 2023-03-20 22:17:42 发布

置顶

WuliLeong

最新推荐文章于 2023-03-20 22:17:42 发布

阅读量696

点赞数 8

分类专栏：大数据文章标签： mapreduce hadoop hdfs ubuntu

本文链接：https://blog.csdn.net/JT_Leong/article/details/110675264

版权

本文详细介绍了如何在Ubuntu Kylin系统中，为Hadoop安装Java环境，配置Hadoop的伪分布式模式，并通过MapReduce执行WordCount任务，实现了单词计数的功能。通过SSH无密码登陆配置、HDFS文件上传、Eclipse中创建MapReduce项目，最终成功运行并查看结果。

摘要由CSDN通过智能技术生成

基于Ubuntu Kylin系统在Hadoop的环境下调用MapReduce对单词WordCount计数

一、首先在VB虚拟机中安装基本配置（基于Ubuntu Kylin已安装完毕）
二、安装Java环境
三、安装Hadoop
四、调用MapReduce执行WordCount对单词进行计数
五、总结
六、参考材料

一、首先在VB虚拟机中安装基本配置（基于Ubuntu Kylin已安装完毕）

1、首先在终端中创建一个hadoop账户（若不想创建可跳过hadoop账户创建）

sudo useradd -m hadoop -s /bin/bash

2、设置hadoop账户的密码

sudo passwd hadoop

3、为 hadoop 用户增加管理员权限，为防止后续操作出现权限不够的情况

sudo adduser hadoop sudo

最后注销当前账户登入hadoop账户
4、登录hadoop账户后，我们对apt进行更新，在终端下输入以下命令

sudo apt-get update

若出现更新不了的情况，请前往系统设置——软件和更新——下载自源选择https://mirrors.aliyun.com/ubuntu，将更新源更改完成后重新尝试输入上述命令选择软件和更新
选择阿里云的镜像源
5、装一个vim的编辑器，后期编辑文档比vi好用，辨别文字识别度更高，vi编辑器界面只有黑白，vim对于不同类型的文字有不同的颜色

sudo apt-get install vim

在安装过程中，遇到确认在提示出填写y即可。
在这里插入图片描述
6、集群、单节点模式都需要用到 SSH 登陆，Ubuntu 默认已安装了 SSH client，此外还需要安装 SSH server

sudo apt-get install openssh-server

安装完后，尝试进行登录

ssh localhost

此时会有如下提示(SSH首次登陆提示)，输入 yes 。然后按提示输入密码 hadoop，这样就登陆到本机了。
在这里插入图片描述
但这样登陆是需要每次输入密码的，我们需要配置成SSH无密码登陆比较方便。

首先退出刚才的 ssh，就回到了我们原先的终端窗口，然后利用 ssh-keygen 生成密钥，并将密钥加入到授权中：

exit                           # 退出刚才的 ssh localhost
cd ~/.ssh/                     # 若没有该目录，请先执行一次ssh localhost
ssh-keygen -t rsa              # 会有提示，都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

此时再用 ssh localhost 命令，无需输入密码就可以直接登陆了，如下图所示
在这里插入图片描述

二、安装Java环境

1、安装JAVA环境采用手动安装，选择的JAVA安装包版本是JDK1.8的安装包jdk-8u162-linux-x64.tar.gz，安装包放在了坚果云里面，有需要的可以点击这个链接(访问密码：is03K4)。
接下来我们对JAVA安装包进行安装，打开终端，输入如下命令（安装包已从Windows移动到Ubuntu中）。

cd /usr/lib
sudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件
cd ~ #进入hadoop用户的主目录
cd 下载  #通过vb的共享文件夹方式把JDK安装包jdk-8u162-linux-x64.tar.gz从Windows上传到到Ubuntu的该目录下
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm  #把JDK文件解压到/usr/lib/jvm目录下

2、想确认安装包是否已到指定路径，可使用下列命令进行查看

cd /usr/lib/jvm  #切换到/usr/local/jvm这个路径
ls  #查看当前文件夹有什么文件

在这里插入图片描述
3、设置JAVA环境变量

cd ~
vim ~/.bashrc

通过上面的vim编辑器，打开环境变量配置文件.bashrc，在文件开头添加如下几行内容（进入vim编辑器中，按键盘“ i ”进入编辑模式）

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

在这里插入图片描述
编辑完后，按Esc退出编辑模式，按Shift+冒号，进入文本命令行模式，输入wq，保存并退出回到终端
4、执行如下命令让.bashrc文件的配置立即生效，并用命令查看是否安装成功

source ~/.bashrc   #让.bashrc文件的配置立即生效
java -version   #查看是否安装成功

若返回如下信息，则代表JAVA环境安装成功
在这里插入图片描述

三、安装Hadoop

1、安装Hadoop，我选择的是Hadoop 2.10.0版本的安装包hadoop-2.10.0.tar.gz，可以点击这里进行下载(访问密码：KE3npb)
接下来我们对Hadoop安装包进行安装，打开终端，输入如下命令（安装包已从Windows移动到Ubuntu中）。

sudo tar -zxf ~/下载/hadoop-2.10.0.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.10.0/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

2、查看Hadoop解压完后是否可用，可使用如下命令来检查 Hadoop 是否可用，成功则会显示 Hadoop 版本信息

cd /usr/local/hadoop
./bin/hadoop version

3、下面对Hadoop进行伪分布式的配置（Hadoop默认安装好单机配置）
（1）Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，我们需要对core-site.xml 和 hdfs-site.xml这两个配置文件进行修改，使用vim编辑器对配置文件进行修改，每个配置以声明 property 的 name 和 value 的方式来实现。

cd /usr/local/hadoop/etc/hadoop  #进入到hadoop文件夹中，core-site.xml 和 hdfs-site.xml这两个配置文件都在这个文件夹里面

（2）在进行修改配置文件前，需要创建相应的文件夹进行存放，否则在后面的操作中，不能够启动Hadoop

sudo mkdir /usr/local/hadoop/tmp
sudo mkdir /usr/local/hadoop/tmp/dfs/name
sudo mkdir /usr/local/hadoop/tmp/dfs/data

（3）对core-site.xml进行修改

vim core-site.xml

在配置文件中找到下面这个标签对

<configuration>
</configuration>

在这个标签对中插入下列内容

   <property>

最低0.47元/天解锁文章

WuliLeong

关注

8
点赞
踩
11

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录