从Linux的安装到HDFS上传再到MapReduce的词频统计

@[TOC]从Linux的安装到HDFS上传再到MapReduce的词频统计

一、Linux的安装

在我们安装Linux之前我们需要装备一部分的镜像。正常来说,我们要做服务器的话会选择CentOS或者是Ubuntu Server;我们做桌面系统的话,我们可以选择的是Ubuntu Desktop。现在我们从入门开始,我们暂时不需要细分这两个系统的区别,现在我们学习Hadoop,推荐是使用我们常用的Ubuntu Kylin版本。

1. 创建Hadoop账户

首先我们要打开终端窗口,我们可以通过按ctrl+alt+t打开,或我们可以通过通过邮件桌面选择open terminal打开。

sudo useradd -m hadoop -s /bin/bash

2.设置Hadoop密码

sudo passwd hadoop

3.在Hadoop中增加用户管理权限

sudo adduser hadoop sudo

记得增加用户管理员权限之后我们需要注销我们的当前用户。(点击我们的右上角的小齿轮,选择注销)之后我们会回到我Hadoop的登录界面,选择我们刚创建的的Hadoop用户进行登录。

4更新

我们使用Hadoop用户后,我们需要更新一下我们系统安装的文件,在后面我们将用到我们需要更新的文件。**更新我们的apt文件!!**如果部分同学更新失败我们还可以执行以下的命令:

sudo apt-get update

在这里插入图片描述

5安装vim

我们需要vim插件来进行更改我们之后的配置,执行以下命令:

sudo apt-get install vim

在这里插入图片描述
出现上述情况,我们就选择输入Y即可。

6配置SSH

集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,你可以登录某台 Linux 主机,并且在上面运行命令),Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server

sudo apt-get install openssh-server

安装后,可以使用如下命令登陆本机:

ssh localhost

此时会有如下提示(SSH首次登陆提示),输入 yes 。然后按提示输入密码 hadoop,这样就登陆到本机了。
在这里插入图片描述
但这样登陆是需要每次输入密码的,我们需要配置成SSH无密码登陆比较方便。

首先退出刚才的 ssh,就回到了我们原先的终端窗口,然后利用 ssh-keygen 生成密钥,并将密钥加入到授权中:

exit                           # 退出刚才的 ssh localhost
cd ~/.ssh/                     # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa              # 会有提示,都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

此时再用 ssh localhost 命令,无需输入密码就可以直接登陆了,如下图所示。
在这里插入图片描述

二.安装和配置Java环境

1.安装JDK

Hadoop3.1.3需要JDK版本在1.8及以上。需要按照下面步骤来自己手动安装JDK1.8。
我们已经把JDK1.8的安装包jdk-8u162-linux-x64.tar.gz放在了百度云盘,可以点击这里到百度云盘下载(提取码:lnwl)。
接下来在Linux命令行界面中,执行如下Shell命令(注意:当前登录用户名是hadoop):

cd /usr/lib
sudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件
cd ~ #进入hadoop用户的主目录
cd Downloads  #注意区分大小写字母,刚才已经通过FTP软件把JDK安装包jdk-8u162-linux-x64.tar.gz上传到该目录下
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm  #把JDK文件解压到/usr/lib/jvm目录下

2查看JDK安装情况

JDK文件解压缩以后,可以执行如下命令到/usr/lib/jvm目录查看一下:

cd /usr/lib/jvm
ls

3配置Java环境变量

cd ~
vim ~/.bashrc

通过vim编辑器。打开环境变量配置.bashrc文件,在文件开头添加如下几行内容:
(记得在vim编辑器当中,按“i”进入编辑模式,按“:wq”保存并返回终端)

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

保存.bashrc文件并退出vim编辑器。然后,继续执行如下命令让.bashrc文件的配置立即生效:

source ~/.bashrc

检查安装情况

java -version

如果返回以下信息,当前配置的Java环境成功。
在这里插入图片描述

三.安装Hadoop

Hadoop安装文件,可以到Hadoop官网下载hadoop-3.1.3.tar.gz。
也可以直接点击这里从百度云盘下载软件(提取码:lnwl)
我们选择将 Hadoop 安装至 /usr/local/ 中:

sudo tar -zxf ~/下载/hadoop-3.1.3.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-3.1.3/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

Hadoop 解压后即可使用。输入如下命令来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息:

cd /usr/local/hadoop
./bin/hadoop version

在这里插入图片描述
(图为hadoop 2.10.0版本)

四.Hadoop伪分布式配置

1.修改配置文件

Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

cd /usr/local/hadoop/etc/hadoop/

在进行修改配置文件前,需要创建相应的文件夹进行存放,以防后续操作无法启动Hadoop。

sudo mkdir /usr/local/hadoop/tmp
sudo mkdir /usr/local/hadoop/tmp/dfs/name
sudo mkdir /usr/local/hadoop/tmp/dfs/data

完成前面的工作后,开始配置core-site.xml 和 hdfs-site.xml。首先对core-site.xml进行修改

vim core-site.xml 

在配置文件中找到下面这个标签对

<configuration>
</configuration>

修改为下面配置:

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

同理修改hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

2.格式化 NameNode

配置完core-site.xml 和 hdfs-site.xml,我们需要对NameNode进行格式化:

cd /usr/local/hadoop
./bin/hdfs namenode -format

成功的话,会看到 “successfully formatted” 的提示,具体返回信息类似如下:

2020-01-08 15:31:31,560 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************

STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = hadoop/127.0.1.1
STARTUP_MSG:   args = [-format]
STARTUP_MSG:  version = 3.1.3
*************************************************************/

......
2020-01-08 15:31:35,677 INFO common.Storage: Storage directory /usr/local/hadoop/tmp/dfs/name **has been successfully formatted**.
2020-01-08 15:31:35,700 INFO namenode.FSImageFormatProtobuf: Saving image file /usr/local/hadoop/tmp/dfs/name/current/fsimage.ckpt_0000000000000000000 using no compression
2020-01-08 15:31:35,770 INFO namenode.FSImageFormatProtobuf: Image file /usr/local/hadoop/tmp/dfs/name/current/fsimage.ckpt_0000000000000000000 of size 393 bytes saved in 0 seconds .
2020-01-08 15:31:35,810 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
2020-01-08 15:31:35,816 INFO namenode.FSImage: FSImageSaver clean checkpoint: txid = 0 when meet shutdown.
2020-01-08 15:31:35,816 INFO namenode.NameNode: SHUTDOWN_MSG:  
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at hadoop/127.0.1.1
*************************************************************/

3.开启NameNode和DateNode守护进程

cd /usr/local/hadoop
./sbin/start-dfs.sh  #start-dfs.sh是个完整的可执行文件,中间没有空格

若出现如下SSH提示,输入yes即可。

在这里插入图片描述

4.校验安装

当程序启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”。

在这里插入图片描述
成功启动后,可以访问 Web 界面 http://localhost:50070查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。

在这里插入图片描述

四.使用MapReduce对WordCount文件单词进行词频统计

1.准备工作

我们已经安装好了我们需要的组件和系统,下面我们来用利用系统进行hdfs的文件系统操作

1.1 启动Hadoop

通过以下命令来启动:

cd /usr/local/hadoop
./sbin/start-dfs.sh #启动hadoop

1.2 HDFS目录操作

需要注意的是,Hadoop系统安装好以后,第一次使用HDFS时,需要首先在HDFS中创建用户目录。本教程全部采用hadoop用户登录Linux系统,因此,需要在HDFS中为hadoop用户创建一个用户目录,命令如下:

cd /usr/local/hadoop
./bin/hdfs dfs –mkdir –p /user/hadoop

该命令中表示在HDFS中创建一个“/user/hadoop”目录,“–mkdir”是创建目录的操作,“-p”表示如果是多级目录,则父目录和子目录一起创建,这里“/user/hadoop”就是一个多级目录,因此必须使用参数“-p”,否则会出错。

下面,可以使用如下命令创建一个input目录:

 ./bin/hdfs dfs –mkdir input

1.3HDFS文件操作

在实际应用中,经常需要从本地文件系统向HDFS中上传文件,或者把HDFS中的文件下载到本地文件系统中。下面我们寻找10000单词进行复制,然后上传到我们的HDFS的目录下。

./bin/hdfs dfs -put /home/hadoop/myLocalFile.txt  input

可以使用ls命令查看一下文件是否成功上传到HDFS中,具体如下:

./bin/hdfs dfs –ls input

显示出以下我标记的黄色反馈我们就创建成功了:
在这里插入图片描述
我们成功的上传到了HDFS 当中。

我们可可以通过以下命令下载到我们的*下载文件夹洞中

./bin/hdfs dfs -get input/myLocalFile.txt  /home/hadoop/下载

可以使用如下命令,到本地文件系统查看下载下来的文件myLocalFile.txt:

cd ~
cd 下载
ls
cat myLocalFile.txt

打开我们的下载文件夹查看:
在这里插入图片描述

1.4安装Eclipse

在我们的软件商城寻找就就能够下载:
在这里插入图片描述

1.5配置Eclipse

当执行完最后一条命令后,系统会自动打开Eclipse,打开后我们看到左边的Project Explorer里出现了DFS Locations

在这里插入图片描述
已经打开了页面,接下来我们进行第一步操做:
在这里插入图片描述
在窗体的左侧找到 Hadoop Map/Reduce 选项,填入Hadoop 的安装地址/usr/local/hadoop
在这里插入图片描述
第二步:切换 Map/Reduce 开发视图,选择 Window 菜单下选择 Open Perspective -> Other,选择 Map/Reduce 选项即可进行切换。
在这里插入图片描述
在这里插入图片描述
第三步:建立与 Hadoop 集群的连接,点击 Eclipse软件右下角的 Map/Reduce Locations 面板,在面板中单击右键,选择 New Hadoop Location。
在这里插入图片描述

在弹出来的 General 选项面板中,General 的设置要与 Hadoop 的配置一致。由于我使用的Hadoop伪分布式配置,设置 fs.defaultFS 为 hdfs://localhost:9000,所以此处DFS Master 的 Port 要改为 9000。Map/Reduce(V2) Master 的 Port 用默认的即可,Location Name 随意填写。
在这里插入图片描述
配置好后,我们就能在左侧的Project Explorer中找到我们的实验文件。
在这里插入图片描述

2.创建MapReduce项目

首先,点击File菜单,选择New——Project
在这里插入图片描述
选择Map/Reduce Project,点击Next
在这里插入图片描述
填写项目名称,此处用本实验WordCount作为项目名。填写完后点击Finish即可。
在这里插入图片描述
接下来在左侧的Project Explorer中找到刚刚建好的WordCount文件夹,右击src选择New-Class创建一个类。
在这里插入图片描述
在弹出的class窗口中填入相应信息。 Package 处填写 org.apache.hadoop.examples;在 Name 处填写 WordCount
在这里插入图片描述

3.WordCount词频统计

Class创建完成后,将下面代码复制进刚创建好的WordCount.java文件中:

ge org.apache.hadoop.examples;
 
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
 
public class WordCount {
    public WordCount() {
    }
 
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        //String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();
        String[] otherArgs=new String[]{"input","output"};
        if(otherArgs.length < 2) {
            System.err.println("Usage: wordcount <in> [<in>...] <out>");
            System.exit(2);
        }
 
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(WordCount.TokenizerMapper.class);
        job.setCombinerClass(WordCount.IntSumReducer.class);
        job.setReducerClass(WordCount.IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
 
        for(int i = 0; i < otherArgs.length - 1; ++i) {
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }
 
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
        System.exit(job.waitForCompletion(true)?0:1);
    }
 
    public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();
 
        public IntSumReducer() {
        }
 
        public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            int sum = 0;
 
            IntWritable val;
            for(Iterator<IntWritable> i$ = values.iterator(); i$.hasNext(); sum += val.get()) {
                val = i$.next();
            }
 
            this.result.set(sum);
            context.write(key, this.result);
        }
    }
 
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
        private static final IntWritable one = new IntWritable(1);
        private Text word = new Text();
 
        public TokenizerMapper() {
        }
 
        public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
 
            while(itr.hasMoreTokens()) {
                this.word.set(itr.nextToken());
                context.write(this.word, one);
            }
 
        }
    }
}

在运行 MapReduce 程序前,需要将 /usr/local/hadoop/etc/hadoop 中将有修改过的配置文件(如伪分布式需要 core-site.xml 和 hdfs-site.xml),以及 log4j.properties 复制到 WordCount 项目下的 src 文件夹(~/workspace/WordCount/src)中,在终端中输入下列几行内容

cp /usr/local/hadoop/etc/hadoop/core-site.xml ~/workspace/WordCount/src
cp /usr/local/hadoop/etc/hadoop/hdfs-site.xml ~/workspace/WordCount/src
cp /usr/local/hadoop/etc/hadoop/log4j.properties ~/workspace/WordCount/src

复制完成后,务必右键点击 WordCount 选择 refresh 进行刷新(不会自动刷新,需要手动刷新),可以看到文件结构如下所示:
在这里插入图片描述
完成上面的工作后,在上方找到启动按钮,点击Run As——Run on Hadoop启动MapReduce程序
在这里插入图片描述
不过由于没有指定参数,运行时会提示 “Usage: wordcount “,需要通过Eclipse设定一下运行参数。

右键点击刚创建的 WordCount.java,选择 Run As -> Run Configurations,在此处可以设置运行时的相关参数(如果 Java Application 下面没有 WordCount,那么需要先双击 Java Application)。切换到 “Arguments” 栏,在 Program arguments 处填写 “input output” 就可以了。
在这里插入图片描述
当程序执行完毕后,我们就可以在左侧output——part-r-00000这个文件中看到输出结果了
在这里插入图片描述
也可以通过输入下面命令进行查看

cd /usr/local/haddop
./bin/hdfs dfs -cat output/part-r-00000

输入下面命令,可以把HDFS中文件下载到本地文件系统中的“/home/hadoop/下载/”这个目录下

./bin/hdfs dfs -get output/part-r-00000  /home/hadoop/下载 

5.操作总结

这次的实验当中我们从Ubuntu的系统安装到我们MapReduce的WordCount词频统计,从一个框架慢慢的为内部添加内容,我们逐步的细分每一个部分。希望大家在接触的过程中遇到的问题能够得到解决,第一次发的博客,有错欢迎大家来指正。

6.参考资料

【1】http://dblab.xmu.edu.cn/blog/285/
【2】http://dblab.xmu.edu.cn/blog/290-2/
【3】http://dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop词频统计是指使用Hadoop框架对大规模文本数据进行词频统计。下面是Hadoop词频统计的步骤: 1.准备数据:将需要进行词频统计的文本数据存储在HDFS中。 2.编写Mapper程序:Mapper程序的作用是将输入的文本数据进行分词,并将每个单词作为key,将出现次数作为value输出。 3.编写Reducer程序:Reducer程序的作用是将Mapper程序输出的key-value对进行合并,得到每个单词在文本中出现的总次数。 4.配置Job并提交任务:将Mapper和Reducer程序打包成jar包,并通过Hadoop提供的命令将任务提交到YARN集群中运行。 5.查看结果:任务运行完成后,可以通过Hadoop提供的命令将结果从HDFS中读取出来。 下面是一个简单的Hadoop词频统计的Mapper程序的Python代码: ```python #!/usr/bin/env python import sys # 读取输入数据 for line in sys.stdin: # 去除首尾空格 line = line.strip() # 分词 words = line.split() # 输出每个单词的出现次数 for word in words: print('%s\t%s' % (word, 1)) ``` 下面是一个简单的Hadoop词频统计的Reducer程序的Python代码: ```python #!/usr/bin/env python import sys # 初始化变量 current_word = None current_count = 0 # 处理输入数据 for line in sys.stdin: # 去除首尾空格 line = line.strip() # 解析输入数据 word, count = line.split('\t', 1) count = int(count) # 如果当前单词与上一个单词不同,则输出上一个单词的统计结果 if current_word and current_word != word: print('%s\t%s' % (current_word, current_count)) current_count = 0 # 更新当前单词的统计结果 current_word = word current_count += count # 输出最后一个单词的统计结果 if current_word: print('%s\t%s' % (current_word, current_count)) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值