自定义编码UDF和UDTF

代替月亮说晚安呀

已于 2023-07-13 14:25:08 修改

阅读量74

点赞数

文章标签： java intellij-idea 开发语言

于 2023-07-13 14:19:20 首次发布

本文链接：https://blog.csdn.net/m0_52824637/article/details/131694777

版权

创建maven项目:(12条消息) Idea中创建maven项目（超详细）_idea创建maven项目_Yan Yang的博客-CSDN博客

剩下的看尚硅谷，添加依赖

<dependencies>
		<dependency>
			<groupId>org.apache.hive</groupId>
			<artifactId>hive-exec</artifactId>
			<version>3.1.2</version>
		</dependency>
</dependencies>

添加不成功的话修改setting.xml镜像。

udf

package com.wmhhh.udf;


import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

/**
 * 自定义UDF函数，需要继承GenericUDF类
 * 需求: 计算指定字符串的长度
 */
//alt+回车自动导入
public class Myudf extends GenericUDF {

    @Override//初始化，全局执行一次，校验数据参数
    public ObjectInspector initialize(ObjectInspector[] objectInspectors) throws UDFArgumentException {
        if (objectInspectors.length!=1){
            throw new UDFArgumentException("参数个数不为1");
        }
        return PrimitiveObjectInspectorFactory.javaIntObjectInspector;
    }

    @Override //用来计算
    public Object evaluate(DeferredObject[] deferredObjects) throws HiveException {
        //取出输入数据
        String input=deferredObjects[0].get().toString();
        //判断输入数据是否为null
        if (input==null){
            return 0;
        }
        return input.length();
    }

    @Override

    public String getDisplayString(String[] strings) {
        return null;
    }
}

写完后打包，按上小闪电跳过测试。

将打包后的jar扔到hive/lib下，将jar包添加到hive的classpath，

add jar /opt/module/hive/lib/wmhhh.jar;

创建临时函数与开发好的java class关联,as后面的东西是类名右击的reference

create temporary function my_len as "com.wmhhh.hive.Myudf";

执行命令

select ename,my_len(ename) ename_len from emp;

(如果有问题的话要先将lib下的jar包删除，再重新上传，不然会有wmhhh.jar.0这样的文件生成)

udtf

package com.wmhhh.udf;

import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;

import java.util.ArrayList;
import java.util.List;
//输入数据：hello,wmhhh,hive
//按行输出

public class Myudtf extends GenericUDTF {
//    输出数据的集合
    private ArrayList<String> output=new ArrayList<>();

    @Override//初始化
    public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {
        //输出数据的默认列名，可以被别名覆盖
        List<String> filedNames=new ArrayList<>();
        filedNames.add("word");
        //输出数据的类型
        List<ObjectInspector> filedOId=new ArrayList<>();
        filedOId.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        return ObjectInspectorFactory.getStandardStructObjectInspector(filedNames,filedOId);
    }


    @Override//处理输入数据：hello,wmhhh,hive
    public void process(Object[] objects) throws HiveException {
//        输入数据
        String input=objects[0].toString();
//        按照逗号分割
        String[] words=input.split(",");
//        遍历
        for(String word:words){
//            先清空集合
            output.clear();
            output.add(word);
            forward(output);
        }

    }

    @Override  //首位方法
    public void close() throws HiveException {

    }
}