调用Mapreduce对一篇英文文章的英文单词进行统计

该博客介绍了如何在Linux环境下安装Hadoop,利用MapReduce对英文文章进行单词统计。首先详细阐述了Hadoop的安装步骤,包括创建用户、安装SSH、配置JAVA环境等。然后讲解如何使用Eclipse创建Hadoop项目,加载所需JAR包,编写Java程序,并将文章上传到HDFS进行分析。最后展示了运行结果和输出的统计信息。
摘要由CSDN通过智能技术生成

调用MapReduce对英文单词做统计

首先,我们需要安装hadoop才能够使用它里面的MapReduce功能来对文章进行分析统计。安装hadoop我是使用虚拟机Linux操作系统Ubuntu来作为hadoop的安装环境,当然你也可以使用本地windows来作为安装环境,这些不影响hadoop的功能使用和实现。

一.Hadoop的安装

(一)准备工作

1、创建用户
如果你安装 Ubuntu 的时候不是用的 “hadoop” 用户,那么需要增加一个名为 hadoop 的用户:

sudo useradd -m hadoop -s /bin/bash   #创建hadoop用户
sudo passwd hadoop   #设置密码

可为 hadoop 用户增加管理员权限,方便部署,避免一些对新手来说比较棘手的权限问题:

sudo adduser hadoop sudo

2、更新apt、安装vim
用 hadoop 用户登录后,我们先更新一下 apt,不然后面要安装一些软件时就没法安装:

sudo apt-get update   #更新apt
sudo apt-get install vim   #安装vim

3、安装SSH,配置SSH无密码登录

sudo apt-get install openssh-server   #安装SSH
ssh localhost   #安装后,可以使用如下命令登陆本机
exit                           # 退出刚才的 ssh localhost
cd ~/.ssh/                     # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa              # 会有提示,都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

4、安装JAVA环境
该文章最后有JDK下载地址,从网上下载完JDK安装包后(文件jdk-8u162-linux-x64.tar.gz)我们就来安装JDK。我是将它保存到“/home/linziyu/Downloads/”目录下,因此:

cd /usr/lib
sudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件
cd ~ #进入hadoop用户的主目录
cd Downloads  #注意区分大小写字母,刚才已经通过FTP软件把JDK安装包jdk-8u162-linux-x64.tar.gz上传到该目录下
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm  #把JDK文件解压到/usr/lib/jvm目录下
cd ~
vim ~/.bashrc   #设置环境变量

vim进入配置文件后,点击键盘“a”键进入编辑状态并且代码,按“Esc”键退出编辑状态,再输入“:wq”保存修改并退出。若输入“:q”保存但不修改并退出。

在配置文件中的开头添加这几行代码:

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${
   JAVA_HOME}/jre
export CLASSPATH=.:${
   JAVA_HOME}/lib:${
   JRE_HOME}/lib
export PATH=${
   JAVA_HOME}/bin:$PATH

然后在shell命令行输入:

source ~/.bashrc   #使配置文件生效
jav -version   #检a查Java是否安装成功

(二)安装hadoop

1、安装包下载完成后(hadoop安装包下载地址在该文章最后),将hadoop安装在 /usr/local/ 中:

sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-2.6.0/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

2、检查hadoop是否可用:

cd /usr/local/hadoop
./bin/hadoop version  

3、Hadoop伪分布式配置:
伪分布式需要修改2个配置文件core-site.xml和hdfs-site.xml。
core-site.xml的文件配置修改:

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值