从零开始:调用MapReduce进行单词的词频统计

本文从零开始教你如何使用MapReduce在Hadoop上进行单词词频统计。内容包括Hadoop生态安装、JAVA API与HDFS交互、MapReduce程序编写与运行,详细解释了每个步骤,适合初学者入门。
摘要由CSDN通过智能技术生成

相信大家在复习英语相关考试时,都会很关注也很想知道试题中出现频率较高的单词是哪些从而提高复习的命中率对吧?今天我就告诉大家一个方法,使用MapReduce对指定文本进行单词的词频统计。那接下来我就带领大家从零开始一步步搭建环境,到最后的结果呈现,Let's go!

前置环境:

虚拟机Ubuntu系统

首先第一步要做的是Hadoop的生态安装:

1.Oracle VM VirtualBox安转Ubuntu linux系统

2. 安装SSH、配置SSH无密码登陆

2.1因为ubuntu默认已经安装SSH client,所以只需安装SSH server: 命令:Sudo apt-get install openssh-server

2.2安装SSH服务后使用ssh localhost命令登陆本机

2.3 为了方便不用每次登陆SSH都需要密码,所以就将其配置成无密登陆。首先退出刚才的 ssh,就回到了我们原先的终端窗口,然后利用 ssh-keygen 生成密钥,并将密钥加入到授权中

之后再次使用localhost命令登陆则无需输入密码

3. 安装Java环境

首先在ubuntuhadoop用户下创建一个Downloads的文件夹用于存放JDK的压缩包

JDK文件使用FileZilla传输到虚拟机Ubuntu里刚创建的Downloads文件夹下

然后接着创建在/usr/lib目录下创建一个jvm的文件夹,将刚才Downloads目录里的JDK压缩包解压到jvm目录下

JDK文件解压后使用cd  /usr/lib/jvm进入jvm的目录,再ls命令查看一下解压后的情况

接着使用vim编辑器将以下内容添加到hadoop用户的环境变量配置文件中

保存.bashrc文件并退出vim编辑器。然后,继续执行source ~/.bashrc命令让配置生效,之后使用java  -version命令查看是否成功安装

4. 安装Hadoop 2

   首先通过FileZillaHadoop文件传输到Ubuntuhadoop用户下的“Downloads”文件夹目录下

接着将Hadoop解压到/usr/local/里,并查看确认是否解压成功

解压后将文件夹名改为 hadoop 并修改文件权限

最后输入以下命令检查Hadoop是否可用,可用则会显示hadoop的版本信息

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值