词频统计Map-Reduce过程

最新推荐文章于 2023-04-25 09:36:47 发布

Just_for_fun_208

最新推荐文章于 2023-04-25 09:36:47 发布

阅读量1.4k

点赞数 1

分类专栏：技术篇文章标签： hadoop mapreduce 词频统计过程

本文链接：https://blog.csdn.net/Just_for_fun_208/article/details/51272188

版权

该博客详细介绍了如何使用Hadoop的MapReduce框架进行词频统计。在Map阶段，输入数据是HDFS上的文本，每个字符或换行符作为一个key-value对，经过处理后输出。在Reduce阶段，先对输入数据进行分组和排序，然后进行统计输出。

摘要由CSDN通过智能技术生成

hdfs原始数据：
hello a
hello b

map阶段：
输入数据：key-value对，key为偏移量(一个字符一个偏移量，换行也算一个)

    <0,"hello a">
    <8,"hello b">

输出数据：context上下文，存储输出的数据（伪代码如下）

    map(key,value,context) {
        String line = value;    //hello a
        String[] words = value.split("\t");
        for(String word : words) {
            //第一次hello

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Just_for_fun_208

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

使用MapReduce编写词频统计

Nahshon的博客

11-11

677

使用idea工具对txt文件进行词频统计，并输出到另一个文件（本地运行） word.txt： hello hi word hi word haha hi hello pom.xml： <dependencies> <dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-core</artifactId>

mapreduce词频统计

qq_53169545的博客

06-22

649

（1）分别配置mapred-site.xml、yarn-site.xml和slaves文件，并分发给slave1,slave2,之前配过文件，就不在这详细说明了。开发mapreduce程序（Map,reduce和driver）,统计wordcount.txt文件中的单词的数量。是相对应的，而且最好一样，不然的话，多数情况运行时会报错。为该行所对应的行号，因为我们要计算每个单词的数目，的作用就是拆分，简单来说就是将单词打散，计数。以前得到的是一个数字的集合，中的作用是一样的，设定输入。

1 条评论您还未登录，请先登录后发表或查看评论

Mapreduce词频统计

m0_56953187的博客

05-14

515

Mapreduce词频统计

MapReduce词频统计

m0_46671240的博客

05-29

269

import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.ap

Map-reduce算法及其实现 python 实验报告

最新发布

07-21

要求应用map-reduce思想，模拟9个map节点与3个reduce节点实现对维基百科条目词汇的词频的统计。 map节点输出<((title1,key1),1),…,((titlem,keyn),1)>，其中key为文件title.txt中出现的且在words.txt中词。同时，...

map-reduce.pdf

07-22

词频统计是 Map-Reduce 的经典示例之一，其目标是对文档集合中的每个单词出现次数进行计数。该过程分为两个阶段：Map 阶段和 Reduce 阶段。 **Map 阶段：** - 输入：文档名称及其文本内容。 - 输出：一系列键值对...

hadoop使用mapreduce统计词频_Hadoop基础-08-MapReduce词频统计

weixin_29122543的博客

01-17

798

定义Mapper实现WordCountMapper extends Mapperpublic class Mapper {......}KEYIN : mapping 输入 key 的类型，即每行的偏移量offset(每行第一个字符在整个文本中的位置)，Long 类型，对应 Hadoop 中的 LongWritable 类型；VALUEIN : mapping 输入 value 的类型, 即其实就...

MapReduce词频统计（一）

qq_35193897的博客

04-25

1890

在Map阶段，文件wordfile1.txt和文件wordfile2.txt中的文本数据被读入，以<key,value>的形式提交给Map函数进行处理，其中，key是当前读取到的行的地址偏移量，value是当前读取到的行的内容。<key,value>提交给Map函数以后，就可以运行我们自定义的Map处理逻辑，对value进行处理，然后以特定的键值对的形式进行输出，这个输出将作为中间结果，继续提供给Reduce阶段作为输入数据。但是，为了简化任务，这里的两个文件只包含几行简单的内容。

mapreduce程序，词频统计

weixin_35756624的博客

01-08

270

MapReduce 程序是一种用于大规模数据处理的编程模型。它的基本思路是将大型数据集分成若干个小型数据块，然后将这些小型数据块分发给计算机集群中的若干台机器进行处理。在 MapReduce 程序中，我们需要编写两个函数：Map 函数和 Reduce 函数。Map 函数用于处理输入数据，并生成中间结果。Reduce 函数用于合并所有的中间结果，得到最终的输出结果。对于词频统计的 MapRedu...

Mapreduce入门--词频统计

smallUmbralla的博客

11-11

811

前言本篇博客内容：使用Hadoop提供给Java的依赖和接口轻松实现Mapreduce词频统计程序的入门。工具：IDEA 需求：统计《yxp》这首诗中每个单词和符号出现的次数诗的内容如下： yxp yxp how are you ? do you know how I miss you recently ? perhaps you are having a time that studying hard and living happily. But you should know that I st

大数据MapReduce词频统计

weixin_44150242的博客

04-25

929

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable...

MapReduce01——词频统计

yeyu_xing的博客

02-16

1384

1、有words.txt文件内容如下，其中以制表符分割 Python Java Java C Python C Python 2、分析 map阶段 1、进行非空和长度等于0的判断，确保读取到每行数据没有问题 2、mapreduce会一行一行地读取文件，读取后将其以制表符分割，就能得到一个字符串数组 3、遍历字符串数组，将其以<key, value>的形式输出，value为1。输出后mapreduce会将相同的key合并在一起 reduce阶段 1、因为map阶段将相同的key聚合在一起，所以键

MapReduce实现词频统计