自定义编码UDF和UDTF

创建maven项目:(12条消息) Idea中创建maven项目(超详细)_idea创建maven项目_Yan Yang的博客-CSDN博客

剩下的看尚硅谷,添加依赖

<dependencies>
		<dependency>
			<groupId>org.apache.hive</groupId>
			<artifactId>hive-exec</artifactId>
			<version>3.1.2</version>
		</dependency>
</dependencies>

添加不成功的话修改setting.xml镜像。

udf

package com.wmhhh.udf;


import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

/**
 * 自定义UDF函数,需要继承GenericUDF类
 * 需求: 计算指定字符串的长度
 */
//alt+回车自动导入
public class Myudf extends GenericUDF {

    @Override//初始化,全局执行一次,校验数据参数
    public ObjectInspector initialize(ObjectInspector[] objectInspectors) throws UDFArgumentException {
        if (objectInspectors.length!=1){
            throw new UDFArgumentException("参数个数不为1");
        }
        return PrimitiveObjectInspectorFactory.javaIntObjectInspector;
    }

    @Override //用来计算
    public Object evaluate(DeferredObject[] deferredObjects) throws HiveException {
        //取出输入数据
        String input=deferredObjects[0].get().toString();
        //判断输入数据是否为null
        if (input==null){
            return 0;
        }
        return input.length();
    }

    @Override

    public String getDisplayString(String[] strings) {
        return null;
    }
}

写完后打包,按上小闪电跳过测试。

将打包后的jar扔到hive/lib下,将jar包添加到hive的classpath,

add jar /opt/module/hive/lib/wmhhh.jar;

创建临时函数与开发好的java class关联,as后面的东西是类名右击的reference

create temporary function my_len as "com.wmhhh.hive.Myudf";

执行命令

select ename,my_len(ename) ename_len from emp;

(如果有问题的话要先将lib下的jar包删除,再重新上传,不然会有wmhhh.jar.0这样的文件生成)

udtf

package com.wmhhh.udf;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

import java.util.ArrayList;
import java.util.List;
//输入数据:hello,wmhhh,hive
//按行输出

public class Myudtf extends GenericUDTF {
//    输出数据的集合
    private ArrayList<String> output=new ArrayList<>();

    @Override//初始化
    public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {
        //输出数据的默认列名,可以被别名覆盖
        List<String> filedNames=new ArrayList<>();
        filedNames.add("word");
        //输出数据的类型
        List<ObjectInspector> filedOId=new ArrayList<>();
        filedOId.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        return ObjectInspectorFactory.getStandardStructObjectInspector(filedNames,filedOId);
    }


    @Override//处理输入数据:hello,wmhhh,hive
    public void process(Object[] objects) throws HiveException {
//        输入数据
        String input=objects[0].toString();
//        按照逗号分割
        String[] words=input.split(",");
//        遍历
        for(String word:words){
//            先清空集合
            output.clear();
            output.add(word);
            forward(output);
        }

    }

    @Override  //首位方法
    public void close() throws HiveException {

    }
}
select my_udtf(word) from input;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值