hadoop Partitioner 分区

最新推荐文章于 2022-10-27 18:04:02 发布

weixin_34112181

最新推荐文章于 2022-10-27 18:04:02 发布

阅读量86

点赞数

文章标签：大数据

原文链接：https://yq.aliyun.com/articles/524788

版权

 
         import  
         org.apache.hadoop.io.Text; 
        
         import  
         org.apache.hadoop.mapreduce.Partitioner; 
        
         /* 测试 Partitioner 分区 
        
         */ 
        
         public class TestPartitioner extends Partitioner<Text, Text>{ 
        
         /* 
        
         * 接受的两个是应该是输入的<key value> 的数据类型 然后根据传进来的 的key 应该有三种结果long right short 然后进行区分输出文件 
        
         */ 
        
         @Override 
        
         public int getPartition(Text key, Text value, int numPartition) { 
        
         /* 
        
         *  numPartition = job.setNumReduceTasks(3); 在运行类设置 
        
         *  numPartition 分多少个reduce 或者分多少个 文件数量 
        
         *  如果是伪分布式 出来的文件 也只有一个而已 因为 他无法设置 reduce的数量 要么一个 要么 0个reduce 
        
         *  但是输出的文件是排序了的 
        
         */ 
        
         int  
         result =  
         0 
         ; 
        
         if 
         (key.equals( 
         "long" 
         )){ 
        
         result =  
         0  
         % numPartition;  
         //part-r-00000 输出到的文件 
        
         }  
         else  
         if  
         (key.equals( 
         "short" 
         )){ 
        
         result =  
         1  
         % numPartition;  
         //part-r-00001 
        
         }  
         else  
         if  
         (key.equals( 
         "right" 
         )){ 
        
         result =  
         2  
         % numPartition;  
         //part-r-00002 
        
         } 
        
         return  
         result; 
        
         } 
        
         }

这里建立的基础是

有数据如同下面

其中第一行只有两列数据

第四行有四列数据

而我们希望只计算三列数据的

于是我们就可以用 Partitioner 进行区分数据或者区分文件

他是通过在map阶段输入数据并且通过指定某个reduce 去达到分区的效果的

默认使用的是 HashPartitioner

job.setPartitionerClass() 应该是可以通过这样去使用partitioner

本文转自拖鞋崽 51CTO博客，原文链接:http://blog.51cto.com/1992mrwang/1206346

weixin_34112181

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop Partitioner 分区

123456789101112131415161718192021222324252627282930importorg.apache.hadoop.io.Text;importorg.apache.hadoop.mapreduce.Partitioner;/* 测...
复制链接

扫一扫