Hive UDF 实验1

项目中使用的hive版本低于0.11,无法使用hive在0.11中新加的开窗分析函数。


在项目中需要使用到row_number()函数的地方,有人写了udf来实现这个功能。


new java project, BuildPath add hadoop-core..jar and hive-exec…jar。


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
package myudf;
 
import java.util.Arrays;
 
import org.apache.hadoop.hive.ql.exec.UDF;
 
public final class rank extends UDF {
    private int counter;
 
    private String[] _paras = null;
 
    public int evaluate(String... paras) {
        if (_paras != null && Arrays.equals(_paras, paras)) {
            this.counter++;
        }else {
            this.counter = 1;
            _paras = paras;
        }
        return this.counter;
    }
 
}
创建辅助表的数据文件:


1
2
3
4
5
6
i=0;
while [ $i -ne 1000 ]
do
echo -e"$i" >>nums.txt;
i=$(($i +1));
done
这个数字辅助表在辅助生成数据时比较有用。


在hive中创建nums表并加载刚才创建的示例数据;


1
2
hive -e "create table nums(num int) row format delimited stored as textfile;"
hive -e "load data local inpath '/home/hadoop/data/nums.txt' overwrite into table nums;"
使用辅助表生成数据:


1
2
3
4
5
6
7
8
9
10
11
hive -e "create table myaccount as select 'account1' as account, 'evan' as maker, rand()*10000 as trans_amount from nums a join nums b;"
 
insert overwrite  table myaccount 
select a.*
from myaccount a
join
(select * from nums where num <10) b;
--checkfile has how many blocks
insert overwrite  table myaccount 
select a.*
from myaccount a order by account,maker;
这样这个表的数据大概有三百M左右了。


默认情况下使用hive跑就要使用2个maper来处理了。


把刚才的java project打包并上传到HDFS 以供hive使用,


1
2
3
4
hadoop fs -mkdir /user/hive/warehouse/udf/;
hadoop fs -copyFromLocal /home/hadoop/jar/myhiveudf.jar/user/hive/warehouse/udf/;
add jar  hdfs:/user/hive/warehouse/udf/myhiveudf.jar;
create temporary function myrank as "myudf.rank";
使用hive的udf进行数据测试:


create table myaccountrank as select account,maker,trans_amount,myrank(account,maker) as rank1 from myaccount;


按我们的数据情况来看,我们想要的结果是max(rank1)=1000000;但是实际结果却是:8348163;


原因是在执行create table的时候,使用了两个mapper去处理结果,这样相同的account 和 maker 被拆分给两个map task去处理,这样算出来的结果就是有问题的。


问题是hive udf是如何确定执行在map phase还是reduce phase呢?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本方法。编译原理不仅是计算机科学理论的重要组成部分,也是实现高效、可靠的计算机程序设计的关键。本文将对编译原理的基本概念、发展历程、主要内容和实际应用进行详细介绍编译原理是计算机专业的一门核心课程,旨在介绍编译程序构造的一般原理和基本

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值