黑猴子的家：MapReduce WordCount奇偶分区（Partitioner）

最新推荐文章于 2021-11-19 13:29:23 发布

黑猴子的家

最新推荐文章于 2021-11-19 13:29:23 发布

阅读量355

点赞数

分类专栏： MapReduce

本文链接：https://blog.csdn.net/qq_28652401/article/details/83509804

版权

MapReduce 专栏收录该内容

50 篇文章 0 订阅

订阅专栏

把单词按照ASCII码奇偶分区（Partitioner）

1、分析

2、自定义分区

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class WordCountPartitioner extends Partitioner<Text, IntWritable>{

    @Override
    public int getPartition(Text key, IntWritable value, int numPartitions) {
        
        // 1 获取单词key  
        String firWord = key.toString().substring(0, 1);
        char[] charArray = firWord.toCharArray();
        int result = charArray[0];
        // int result  = key.toString().charAt(0);

        // 2 根据奇数偶数分区
        if (result % 2 == 0) {
            return 0;
        }else {
            return 1;
        }
    }
}

3、在驱动中配置加载分区，设置reducetask个数

job.setPartitionerClass(WordCountPartitioner.class);
job.setNumReduceTasks(2);

4、基于wordcount案例

https://www.jianshu.com/p/c8726f1ccd8f

5、Code -> GitHub

https://github.com/liufengji/hadoop_mapreduce.git

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

黑猴子的家

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大数据学习(八)MR wordcount进阶 partition+序列化排序

Braylon的博客

01-19

418

简介上一章介绍了MR的wordcount的demo，这一节我们来进行扩充，逐步将wordcount丰富，拥有更多的业务基础逻辑。我们目标是实现自主切分partition，生成自定义的数量和数据特征的partition文件。并且实现序列化数据bean，利用writableComparable接口实现升序降序排列。首先我们看一眼数据，这是我随便敲的。我们用partition分成两个文...

mapreduce wc单词计数自定义分区自定义排序实现

09-07

实现mr的wordcount功能和自定义分区的功能、自定义排序功能；com.ellis.mr1为类似wc功能，com.ellis.mr2为自定义分区功能，com.ellis.mr3为自定义排序功能

参与评论您还未登录，请先登录后发表或查看评论

fdisk：Linux 下管理磁盘分区的利器

方志朋的专栏

09-10

1332

一块硬盘可以被划分成一个或多个逻辑磁盘，我们将其称作分区。我们对硬盘进行的划分信息被储存于建立在扇区 0 的分区表（MBR 或 GPT）中。 Linux 需要至少一个分区来当作根文件系统，所以我们不能在没有分区的情况下安装 Linux 系统。当我们创建一个分区时，我们必须将它格式化为一个适合的文件系统，否则我们就没办法往里面储存文件了。要在 Linux 中完成分区的相关工作，我们需要一些工具。Linux 下有很多可用的相关工具，我们曾介绍过 Parted 命令。不过，今天我们的主角是 fdisk。人人都

MapReduce中的分区方法Partitioner

汤小萌的博客

11-06

764

在进行MapReduce计算时,有时候需要把最终的输出数据分到不同的文件中,比如按照省份划分的话,需要把同一个省份的数据放到一个文件中,按照性别划分的话,需要把同一个性别的数据放到一个文件中.我们知道最终的输出数据是来自Reducer任务的,那么如果要得到多个文件,意味着有同样数的Reducer任务在运行. Reducer任务的数据来自于Mapper任务,也就是说Mapper任务要划分数据,对于不...

【大数据day12】——MapReduce 基础（MapReduce 介绍、编程规范、运行模式、WordCount统计单词个数案例，MapReduce 分区，MapReduce 中的计数器）

qq_38454176的博客

04-23

705

Hadoop-Mapreduce 1. MapReduce 介绍 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。 Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。 Reduce负责“合”，即...

图文并茂展示hadoop 中wordcount的输入，map处理，排序，分区，分组，combine,copy,再排序，分组，redece处理

csdn问鼎

03-17

752

图文并茂展示hadoop 中wordcount的输入，map处理，排序，分区，分组，combine,copy,再排序，分组，redece处理

大数据学习（七）：mapreduce实现wordcount计数

01-07

mapreduce 0.0.1-SNAPSHOT mapreduce http://maven.apache.org UTF-8 org.apache.hadoop hadoop-client 2.8.1 一、在eclipse使用main方法提交给集群yarn运行mapreduce 1、计数mapper实现 package ...

MapReduce WordCount

最新发布

05-14

总结，MapReduce WordCount是大数据处理的基础，通过它我们可以学习到分布式计算的核心概念，理解如何在Hadoop环境中处理大规模数据，并为进一步探索更高级的计算模型打下基础。在实际的工程实践中，MapReduce及其...

hadoop mapreduce wordcount

08-24

<artifactId>wordcount <version>0.0.1-SNAPSHOT <packaging>jar <name>wordcount <url>http://maven.apache.org</url> <project.build.sourceEncoding>UTF-8 <groupId>org.apache.hadoop ...

MapReduce wordcount demo

05-11

用java的MapReduce写了个demo，用于计算文档单词出现个数

Hadoop mapreduce实现wordcount

01-28

【标题】Hadoop MapReduce 实现 WordCount MapReduce 是 Apache Hadoop 的核心组件之一，它为大数据处理提供了一个分布式计算框架。WordCount 是 MapReduce 框架中经典的入门示例，它统计文本文件中每个单词出现的...

Partitioner

weixin_33998125的博客

09-26

为什么要使用分区？　　1.根据业务需要，产生多个输出文件　　2.多个reduce任务在运行，提高整体job的运行效率转载于:https://blog.51cto.com/machenjie/1968859...

hadoop自定义分区&数据倾斜问题引入(仍然是wordcount 例子实践)

master-dragon的专栏

05-09

574

输入输出说明 HDFS Block: 128M words_skew: 1.4G 大概 11块还多点，所以Block 0…11(共 12 个 block) 最后单词计数结果 abc 19178419 count 19168329 hadoop 19173414 hello 153388549 ok 19178346 test 19174161 world 19174238 MR log 20/...

数据研发学习笔记4.6：大数据之MapReduce

weixin_41961559的博客

05-17

991

文章目录1 概述1.1 分布式并行编程1.2 MapReduce模型简介1.3 Map和Reduce函数2 MapReduce体系结构3 MapReduce工作流程3.1 工作流程概述3.2 MapReduce各个执行阶段3.3 Shuffle过程详解3.4 MapReduce应用程序执行过程4 实例分析：WordCount4.1 WordCount程序任务4.2 WordCount设计思路4.3 一个WordCount执行过程的实例5 MapReduce的具体应用6 MapReduce编程实践 1 概述

Wordcount Combiner性能测试

北邮大数据

04-06

1374

在mapreduce程序的运行过程中，map阶段产生的数据存放在本地磁盘中，reduce阶段节点通过远程访问的形式读取进行下一步计算。如果能够减少map阶段产生的数据量就能够大幅度提升体统性能。 Combiner是减少map阶段产生数据量的重要措施。本文档重点研究了combiner函数对于wordcount程序运行时间的影响。本文档的研究方法是：在运行wordcount程序过程中，针

MapReduce结合WordCount详解

Chris_MZJ的博客

10-17

553

MapReduce技术引入大数据时代的数据分析任务比传统的数据分析任务要复杂，因为往往涉及的数据量巨大，比如要分析汇总某个大型零售商在全国的销售数据，查看某个搜索引擎的特定词条的访问日志… … 通常来讲，我们的笔记本电脑可以同时干很多事儿，比如听音乐，编辑Word文档，下载电影，这些都可以同时进行，为什么呢？因为这些程序任务处理的数据量规模小。而对于大规模的数据处理任务来说，就不是一台电脑同时做...

WordCount源码解析

qq_61416150的博客

11-19

930

WordCount从结构上可以分为3个部分，分别是Driver、Mapper、Reducer。首先，我们来分析Mapper。在我们自定义类继承Mapper的时候要格外注意键值对的输入、输出格式，键值对的输入、输出格式要和类读取生成的输入、输出格式匹配。Mapper任务启动后首先执行setup函数，该作用是初始化。map函数针对每条输入键值对执行函数中定义的逻辑处理，并按规定的键值对格式输出。在所有键值对处理完成后，再调用cleanup函数，其作用是关闭资源。 public class Wo...

第11课：彻底解密WordCount运行原理

段智华的博客

05-22

1308

第11课：彻底解密WordCount运行原理本节彻底解析wordcount运行原理：1，从数据流动视角解密WordCount，使用Spark作单词计数统计，数据到底是怎么流动的。2，从RDD依赖关系的视角解密WordCount。Spark中的一切操作都是RDD，后面的RDD对前面的RDD有依赖关系。3，DAG与血统Lineage的思考。接下来我们讲解运行wordcount程序。首先建立一个文本文

WordCount 案例

Da.的博客

05-20

2144

统计一堆文件中单词出现的个数 0 需求：在一堆给定的文本文件中统计输出每一个单词出现的总次数 1 数据准备：hello.txt hadoop spring java java spark hadoop java spring hive zookeeper solr spark strom hadoop spring java java spark hadoop java spring hi...