hadoop自定义分区

最新推荐文章于 2021-11-23 19:55:01 发布

wending-Y

最新推荐文章于 2021-11-23 19:55:01 发布

阅读量1.1k

点赞数 1

分类专栏： hadoop 文章标签： hadoop 分区

本文链接：https://blog.csdn.net/qq_22222499/article/details/62227629

版权

hadoop 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

实现自定义分区比较简单了，继承Partitioner，实现getPartition()方法就行了，分区是按照key进行的。以wordcount为例。
输入文本1 hello world hello
3.输入文本2 hello world world
4 编写程序，hello 和world各自为一个分区，各自对应一个reduce,对应一个输出文件。

public class MyPatitioner extends Partitioner<Text, LongWritable>{


    @Override
    public int getPartition(Text key, LongWritable value, int numPartitions) {
        // TODO Auto-generated method stub
        if (key.toString().equals("hello")) {
            return 0;      //从0开始
        }else {
            return 1;
        }
    }

}

5.运行程序中加入以下两行代码

  job.setPartitionerClass(MyPatitioner.class);  //设置分区类
  job.setNumReduceTasks(2);  //设置分区个数

6.运行结果
hello 3
world 3

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

wending-Y

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

hadoop 自定义分区

congge

01-03

1万+

hadoop 自定义分区总结

hadoop 自定义OutputFormat

congge

01-08

7129

hadoop 自定义OutputFormat

参与评论您还未登录，请先登录后发表或查看评论

Hadoop自定义分区Partitioner

lavimer

01-17

3579

一：背景为了使得MapReduce计算后的结果显示更加人性化，Hadoop提供了分区的功能，可以使得MapReduce计算结果输出到不同的分区中，方便查看。Hadoop提供的Partitioner组件可以让Map对Key进行分区，从而可以根据不同key来分发到不同的reduce中去处理，我们可以自定义key的分发规则，如数据文件包含不同的省份，而输出的要求是每个省份对应一个文件。二

Hadoop之自定义分区（Partitioner）

蒯厅博客

05-06

678

需求将统计结果按照手机号，以136、137、138、139开头的数据分别放到一个独立的文件中，其他开头的放到一个文件中。（分区）输入数据 1863157985066 120.196.100.82 2481 24681 200 1363157995033 120.197.40.4 264 0 200 1373157993055 120.196.100.99 132 1512 200 139315...

hadoop streaming自定义partitioner方式

踏实做人,认真做事

05-25

1543

测试数据 1,2,1,1,1 1,2,2,1,1 1,3,1,1,1 1,3,2,1,1 1,3,3,1,1 1,2,3,1,1 1,3,1,1,1 1,3,2,1,1 1,3,3,1,1 目的在map中数据以‘,’分隔，分隔后的前两列作为key，相同的key会被分到同一个reduce中。配置参数说明 map.output.key.field.separator： map中ke...

hadoop分区

RZH_long的博客

11-23

755

package demo04.flow; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Partitioner; /** * 分区继承于这个类，重写getPartition方法返回数字根据数字分到各个reduce,此处传入的是K2,V2 */ public class FlowPartion extends Partitioner<Text, FlowNum> { @Override .

Hadoop自定义排序、分区

ThreeAspects的博客

05-02

1890

实际中往往我们规定一种排序方法，并且为了避免数据倾斜情况，需要我们自定义分区。这里我们讨论将一个城市四年来的温度按年份升序排序，同一年份的温度按照降序排序。自定义排序定义一个封装对象定义排序方法自定义分区自定义分区自定义分组主函数 自定义排序定义一个封装对象该对象需要实现WritableComparable接口。 public class MyClass implements Writable...

Hadoop中MapReduce的自定义分区、排序、分组

恩特尔派

07-24

660

分区：在MR的job中，默认使用的分区类为：HashPartitioner.class 其源代码为： public class HashPartitioner<K, V> extends Partitioner<K, V> { public HashPartitioner() { } public int getPartition(K key, ...

Hadoop自定义分区

筱白熊

03-19

522

Hadoop自定义分区 Hadoop组件partition简介 partition的作用是将mapper输出的key/value划分成不同的partition。每个reducer对应一个partition。默认情况下，partitioner先计算key的散列值（hash值）。然后通过reducer个数执行取模运算： key.hashCode%(reducer个数)。这样能够随机地将整个key空间平均分发给每个reducer,同时也能确保不同 mapper产生的相同key能被分发到同一个reducer。

Hadoop分区与分组

weixin_44388193的博客

11-09

832

面以《Hadoop权威指南》中的一个例子来解释分区与分组的关系。 Hadoop权威指南(中文版-带目录索引)PDF 下载见http://www.linuxidc.com/Linux/2013-05/84948.htm Hadoop权威指南（中文第2版）PDFhttp://www.linuxidc.com/Linux/2012-07/65972.htm 对于一般的键，只需要key值相同，则...

hadoop streaming，排序，分区

weixin_30482181的博客

11-25

223

一个简单示例： hadoop jar ${hdstreaming} \-D mapreduce.job.queuename=mapreduce.normal \ #Hadoop 2.0一定要指定队列名-D mapreduce.job.name='UserFeature::Predict' \-D stream.num.map.output.key.fields=2 \-D num.key.fi...

hadoop自定义分区操作(Partitioner) 步骤1.3

01-01

1240

基于统计移动设备上网流量例子: MyMapper import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class MyMapper extends Mapper { protected v

hadoop MapReduce自定义分区partition的作用和用法

maenlai0086的博客

03-07

680

背景在Hadoop的MapReduce过程中，每个map task处理完数据后，如果存在自定义Combiner类，会先进行一次本地的reduce操作，然后把数据发送到Partitioner，由Partitioner来决定每条记录应该送往哪个reducer节点，默认使用的是HashPartitioner，其核心代码如下： public class HashPartitioner<K, V&...

用python + hadoop streaming 编写分布式程序（三） -- 自定义功能

07-14

101

又是期末又是实训TA的事耽搁了好久……先把写好的放上博客吧相关随笔： Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序（一） -- 原理介绍，样例程序与本地调试用python + hadoop streaming 编写分布式程序（二） -- 在集群上运行与监控使用额外的文件假如你跑的job除了输入以外还...

hadoop新增节点配置步骤

白飞飞_Alan

08-31

725

新加datanode的安装步骤: 1、ssh无密码配置和上面详细步骤一样，在新datanode上的/root 上建一个/.ssh的目录，把namenode的authorized_keys复制到新datanode的/.ssh目录上。在namenode上ssh验证一下是否需要密码。 2修改机器名，和上面详细步骤一样。记得重启一下。 3建/usr/program这个目录，把jdk的安装文件放进去，

6、MapReduce自定义分区实现

这里是Code猿学习的地方

12-11

324

MapReduce自带的分区器是HashPartitioner 原理：先对map输出的key求hash值，再模上reduce task个数，根据结果，决定此输出kv对，被匹配的reduce任务取走。 自定义分分区需要继承Partitioner，复写getpariton()方法 自定义分区类：注意：map的输出是<K,V>键值对其中int partitionIndex = dic...

hadoop中分区详解

weixin_43548518的博客

04-21

4164

分区的目的就是把不同数据输出到不同reduceTask 最终到输出不同文件中 1.hadoop 的默认分区原则： mapTask 之后的数据进入哪个reduceTask的规则默认规则是：按照keyd的hashCode % reduceTask 数量 = 分区号默认reduceTask 数量为1 可以在driver 端进行设置 2. hadoop 的分区作用在那个位置 mapTask 输...

hadoop自定义分区函数

do_what_you_can_do的博客

11-24

1787

首先我们明确一下关于中这个分区到底是怎么样，有什么用处？回答这个问题先看看上次代码执行的结果，我们知道结果中有个文件(part-r-00000),这个文件就是所有的词的数量记录，这个时候有没什么想法比如如果我想把一些包含特殊的词放置单独的一个文件，其他我不关心的放置在另一个文件这样我就好查看方便多了，又比如如果是统计关于人的某些爱好那我是不是可以把童年的放置在一个文件，成年的放置在一个文件等等这样

学习Hadoop第十四课（自定义分区Partitioner）

u012453843的专栏

10-10

2847

上一节课我们一起学习了Hadoop的远程调试，这节课我们一起学习Hadoop的Partitioner（分区），首先说一下为什么要用到分区的功能，这里我们举个例子，中国移动公司想要查看北京用户的打电话情况，手机信号来自附近的基站，要查看北京用户的信息得从全国所有的基站获取信息并一一筛选，假如我们不把用户按省市进行分别存放的话，每次我们想查看某个省市的信息时便需要从全国所有的基站信息中去一一查

自定义Hadoop MapReduce多文件输出实现

"本文介绍了在Hadoop的MapReduce中如何实现多文件输出，特别是在Hadoop 0.20.x及以上版本中，由于MultipleOutputFormat被标记为过时，需要自定义新的输出格式。作者通过实现一个简单的MultipleOutputFormat，并改造...