从零开始：调用MapReduce进行单词的词频统计

最新推荐文章于 2023-11-17 17:17:45 发布

qq_21467401

最新推荐文章于 2023-11-17 17:17:45 发布

阅读量2.6k

点赞数 2

文章标签： mapreduce big data 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21467401/article/details/122247536

版权

本文从零开始教你如何使用MapReduce在Hadoop上进行单词词频统计。内容包括Hadoop生态安装、JAVA API与HDFS交互、MapReduce程序编写与运行，详细解释了每个步骤，适合初学者入门。

摘要由CSDN通过智能技术生成

相信大家在复习英语相关考试时，都会很关注也很想知道试题中出现频率较高的单词是哪些从而提高复习的命中率对吧？今天我就告诉大家一个方法，使用MapReduce对指定文本进行单词的词频统计。那接下来我就带领大家从零开始一步步搭建环境，到最后的结果呈现，Let's go!

前置环境：

虚拟机Ubuntu系统

首先第一步要做的是Hadoop的生态安装：

1.在Oracle VM VirtualBox安转Ubuntu linux系统

2. 安装SSH、配置SSH无密码登陆

2.1因为ubuntu默认已经安装SSH client,所以只需安装SSH server: 命令：Sudo apt-get install openssh-server

2.2安装SSH服务后使用ssh localhost命令登陆本机

2.3 为了方便不用每次登陆SSH都需要密码，所以就将其配置成无密登陆。首先退出刚才的 ssh，就回到了我们原先的终端窗口，然后利用 ssh-keygen 生成密钥，并将密钥加入到授权中

之后再次使用localhost命令登陆则无需输入密码

3. 安装Java环境

首先在ubuntu的hadoop用户下创建一个Downloads的文件夹用于存放JDK的压缩包

JDK文件使用FileZilla传输到虚拟机Ubuntu里刚创建的Downloads文件夹下

然后接着创建在/usr/lib目录下创建一个jvm的文件夹，将刚才Downloads目录里的JDK压缩包解压到jvm目录下

JDK文件解压后使用cd /usr/lib/jvm进入jvm的目录，再ls命令查看一下解压后的情况

接着使用vim编辑器将以下内容添加到hadoop用户的环境变量配置文件中

保存.bashrc文件并退出vim编辑器。然后，继续执行source ~/.bashrc命令让配置生效，之后使用java -version命令查看是否成功安装

4. 安装Hadoop 2

首先通过FileZilla把Hadoop文件传输到Ubuntu里hadoop用户下的“Downloads”文件夹目录下

接着将Hadoop解压到/usr/local/里，并查看确认是否解压成功

解压后将文件夹名改为 hadoop 并修改文件权限

最后输入以下命令检查Hadoop是否可用，可用则会显示hadoop的版本信息

最低0.47元/天解锁文章

关注

2
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

qq_21467401 CSDN认证博客专家 CSDN认证企业博客

码龄10年

1: 原创

152万+: 周排名

47万+: 总排名

2639: 访问

: 等级

13: 积分

0: 粉丝

2: 获赞

0: 评论

33: 收藏

私信

关注

热门文章

从零开始：调用MapReduce进行单词的词频统计 2639

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。