hive自定义分区器

最新推荐文章于 2024-05-19 16:46:04 发布

不爱吃鱼的馋猫

最新推荐文章于 2024-05-19 16:46:04 发布

阅读量724

点赞数

文章标签： hive hadoop 大数据

本文链接：https://blog.csdn.net/weixin_42716237/article/details/110038688

版权

Hive自定义分区器流程

1.自定义类

实现org.apache.hadoop.mapred.Partitioner(必须为这个,Hive中使用的是老的API)接口

package com.ailibaba;



import org.apache.hadoop.hive.ql.io.HiveKey;

import org.apache.hadoop.io.BytesWritable;

import org.apache.hadoop.mapred.JobConf;

import org.apache.hadoop.mapred.Partitioner;
public class MyPartitioner implements Partitioner<HiveKey, BytesWritable> {

    @Override

    public int getPartition(HiveKey s, BytesWritable s2, int numPartitions) {

        return 0;

    }

    @Override

    public void configure(JobConf job) {

    }

}

2.打包到集群/opt/module/hive/lib/目录下

3.在Hive中进行测试

3.1 添加jar包

add jar /opt/module/hive/lib/partition.jar;

3.2 设置Hive中使用自定义的分区器

set hive.mapred.partitioner = com.ailibaba.MyPartitioner;

3.3 修改Reducer数量

set mapreduce.job.reduces=3;

3.4 执行SQL进行测试

insert overwrite local directory ‘/opt/module/data/distribute-result’ select * from emp distribute by deptno sort by empno desc;

3.5 查看最终结果

-rw-r–r--. 1 ailibaba ailibaba 707 11月 1 13:13 000000_0

-rw-r–r--. 1 ailibaba ailibaba 0 11月 1 13:13 000001_0

-rw-r–r--. 1 ailibaba ailibaba 0 11月 1 13:13 000002_0

发现只有0号分区有数据。

不爱吃鱼的馋猫

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
hive自定义分区器

Hive自定义分区器流程1.自定义类实现org.apache.hadoop.mapred.Partitioner(必须为这个,Hive中使用的是老的API)接口package com.ailibaba;import org.apache.hadoop.hive.ql.io.HiveKey;import org.apache.hadoop.io.BytesWritable;import org.apache.hadoop.mapred.JobConf;import org.apach
复制链接

扫一扫