udf hive 写入mysql_Hive中使用自定义函数(UDF)实现分析函数row_number的功能

之前部门实现row_number是使用的transform,我觉得用UDF实现后,平时的使用会更方便,免去了transform相对繁琐的语法。

之前部门实现row_number是使用的transform,,我觉得用UDF实现后,平时的使用会更方便,免去了transform相对繁琐的语法。

用到的测试表为:

hive> desc row_number_test;

OK

id1 int

id2 string

age int

score double

name string

hive> select * from row_number_test;

OK

2 t04 25 60.0 youlia

1 t01 20 85.0 liujiannan

1 t02 24 70.0 zengqiu

2 t03 30 88.0 hongqu

2 t03 27 70.0 yongqi

1 t02 19 75.0 wangdong

1 t02 24 70.0 zengqiu

使用时要先在子查询中进行分区与排序,比如Oracle中这样一句SQL:

select row_number() over (partition by id1 order by age desc) from row_number_test;

转换为hive语句应该是:

select row_number(id1) from --partition by的字段传到row_number函数中去

(select * from row_number_test distribute by id1 sort by id1,age desc) a;

如果partition by 两个字段:

select row_number() over (partition by id1,id2 order by score) from row_number_test;

转换为hive语句应该是:

select row_number(id1,id2) --partition by的字段传到row_number函数中去

from (select * from row_number_test distribute by id1,id2 sort by id1,id2,score) a;

展示一下查询结果:

1.

select id1,id2,age,score,name,row_number(id1) rn from (select * from row_number_test distribute by id1 sort by id1,age desc) a;

OK

2 t03 30 88.0 hongqu 1

2 t03 27 70.0 yongqi 2

2 t04 25 60.0 youlia 3

1 t02 24 70.0 zengqiu 1

1 t02 24 70.0 zengqiu 2

1 t01 20 85.0 liujiannan 3

1 t02 19 75.0 wangdong 4

2.

select id1,id2,age,score,name,row_number(id1,id2) rn from (select * from row_number_test distribute by id1,id2 sort by id1,id2,score) a;

OK

2 t04 25 60.0 youlia 1

1 t02 24 70.0 zengqiu 1

2 t03 27 70.0 yongqi 1

1 t02 24 70.0 zengqiu 2

1 t02 19 75.0 wangdong 3

1 t01 20 85.0 liujiannan 1

2 t03 30 88.0 hongqu 2

下面是代码,只实现了接收1个参数和2个参数的evaluator方法,参数再多的照搬代码就可以了,代码仅供参考:

package com.Hadoopbook.hive;

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.hive.ql.udf.UDFType;

@UDFType(deterministic = false)

public class Row_number extends UDF {

private static int MAX_VALUE = 50;

private static String comparedColumn[] = new String[MAX_VALUE];

private static int rowNum = 1;

public int evaluate (Object ...args){

String columnValue[] = new String[args.length];

for(int i=0;icolumnValue[i] = args[i].toString();

if (rowNum == 1)

{

for(int i=0;icomparedColumn[i] = columnValue[i];

}

for(int i=0;i{

if ( !comparedColumn[i].equals(columnValue[i]) )

{

for (int j=0;j{

comparedColumn[j] = columnValue[j];

}

rowNum = 1;

return rowNum++;

}

}

return rowNum++;

}

public static void main(String args[])

{

Row_number t = new Row_number();

System.out.println(t.evaluate(123));

System.out.println(t.evaluate(123));

System.out.println(t.evaluate(123));

System.out.println(t.evaluate(1234));

System.out.println(t.evaluate(1234));

System.out.println(t.evaluate(1234));

System.out.println(t.evaluate(1235));

}

}

Hive 的详细介绍:请点这里

Hive 的下载地址:请点这里

相关阅读:

基于Hadoop集群的Hive安装

Hive内表和外表的区别

Hadoop + Hive + Map +reduce 集群安装部署

Hive本地独立模式安装

Hive学习之WordCount单词统计

logo.gif

本文原创发布php中文网,转载请注明出处,感谢您的尊重!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值