Hive自定义函数--UDTF

Hive的自定义函数,在工作中是常用的一种处理数据的手段,在封装我们的业务逻辑方面体现出了非常强大的功能,下面我为大家准备了一个UDTF一进多出函数解析一串JSON数组数据希望可以帮到大家

pom如下

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.wy</groupId>
    <artifactId>func</artifactId>
    <version>1.0-SNAPSHOT</version>

    <dependencies>
        <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec -->
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>1.2.1</version>
        </dependency>
    </dependencies>

</project>

下面先来看一下我们要处理的数据是什么样的让大家有个概念
在这里插入图片描述
我们要处理的数据就是上图这个样子的,当然上面这个是单行数据的样子,我们要处理的是et那部分数据,就是我用绿线圈起来的那一部分,不过我们前面是有一个UDF函数做对json数据初步解析操作的自定义函数的,我们现在写的这个UDTF在使用的时候参数就是做初步解析的UDF函数,嵌套使用来解析et数据,如果想了解UDF的可以看我的UDF例子
https://blog.csdn.net/dudadudadd/article/details/112028839

实现代码如下:

package com.wy;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.json.JSONArray;
import org.json.JSONException;

import java.util.ArrayList;

/**
* UDTF函数继承GenericUDTF 
* 并重写内部的方法
*/
public class EventJsonUDTF extends GenericUDTF {

    /**
    *initialize用于初始化,但是这个方法的书写格式是不变的
    *在该方法中,我们将指定输出参数的名称和参数类型
    *其实说白了就是让我们初始化一张数据表的数据元或者说是
    *结果的表头,因为一进多出函数最后的结果是以一张表的形式
    *展出的
    */
    @Override
    public StructObjectInspector initialize(ObjectInspector[] argOIs) throws UDFArgumentException {

		/**
		*下面的操作就是定义了两列数据元
		*大家写的时候要注意我写的格式
		*在书写时两个List中的数据源名字和类型是要一一对应的
		*不可打乱,大白话就是说fieldNames中第一个数据元的类型
		*必须在fieldOIs的第一个元素中,以此类推
		*/
        ArrayList<String> fieldNames = new ArrayList<String>();
        ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();

        fieldNames.add("event_name");
        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        fieldNames.add("event_json");
        fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

        return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);
    }

    /**
    *process方法就是用来实现我们业务的方法
    *比如在我下面的代码逻辑中实现的业务为:
    *将json数据中已经被UDF函数解析出来的et数据进行解析
    *这里提一嘴et数据是一个复杂的json数组里面是模拟的
    *是用户行为数据,如操作了某些东西,或看了某些东西等等
    *但是我对这些数据并不是都要直接提取,而是以提取事件名字的形式来解析数据
    */
    @Override
    public void process(Object[] objects) throws HiveException {

        // 获取传入的数据中的et
        // 这里要注意的是process方法的参数之所以是数组
        // 是因为UDTF还有其他的妙用,在本例子中我们传输的数据只有et
        // 因此取0位下标数据就可以
        String input = objects[0].toString();

        // 如果传进来的et数据为空,直接结束这次处理过滤掉该数据,进行下一次处理
        if (StringUtils.isBlank(input)) {
            return;
        } else {

            try {
                //解析et
                JSONArray ja = new JSONArray(input);
				
				//为了防止意外再次判断是否为空,两次不为空判断是因为考虑到可能由于网络问题用户触发打码
				//但是却发生了数据丢失的问题
                if (ja == null)
                    return;

                // 如果不为空循环遍历每一个事件
                for (int i = 0; i < ja.length(); i++) {
                	//准备一个足够长度的数组,这个类型要和初始化方法里面的相对应,不过一般解析都是先用String,这个只能大家使用的到时候看具体需求而定
                    String[] result = new String[2];

                    try {
                        // 取出每个的事件名称
                        result[0] = ja.getJSONObject(i).getString("en");

                        // 取出每一个事件的事件体,就是原来的数据,只不过这个时候解析出来做为一个独立的JSON对象存在
                        result[1] = ja.getString(i);
                    } catch (JSONException e) {
                        continue;
                    }
                    // 将结果返回,forward方法直接调就可以它是父类的一个方法作用就是将result解析成我们之前初始化的样子
                    forward(result);
                }
            } catch (JSONException e) {
                e.printStackTrace();
            }
        }
    }

    //当所有记录处理完的时候该方法会被调用,用来做扫尾工作
    @Override
    public void close() throws HiveException {

    }
}

同样的附送大家自定义函数的操作语句不过由于之前发过一个UDF所以没有该东西直接拷贝过来的,大家操作的时候记得改自己的东西就好

//add语句使用一般是jar在hive的jar路径下才用,如果大家工作有这种需求就用add,当然它也可以加载hdfs上的jar,但是我不会告诉你们我忘了是怎么写的了,哈哈哈哈
add jar myudf.jar;
//add之后直接就可以运行create语句,加上temporary 创建的是临时函数,断开hive之后该函数失效,不加建立的是永久函数
create temporary function myudf as 'com.wy.ToUpper';

//如果我们的jar就在hdfs上那么我们直接使用下面这个语句就可以,同样的加上temporary 创建的是临时函数,断开hive之后该函数失效,不加建立的是永久函数
create function myudf as 'com.wy.ToUpper' using jar 'hdfs://wy:9000/myudf.jar';

//临时函数可以直接删除,但永久函数不可直接删除,只能从元数据库的FONC表中入手删除,还不一定可以删成功
drop temporary function myudf;

至于上面的这个例子的使用我也给大家准备了一个例子,大家可以结合着看一下,有个了解

insert overwrite table dwd_base_event_log partition(dt='2020-07-13')
select
    base_analizer(line,'mid') as mid_id,
    base_analizer(line,'uid') as user_id,
    base_analizer(line,'vc') as version_code,
    base_analizer(line,'vn') as version_name,
    base_analizer(line,'l') as lang,
    base_analizer(line,'sr') as source,
    base_analizer(line,'os') as os,
    base_analizer(line,'ar') as area,
    base_analizer(line,'md') as model,
    base_analizer(line,'ba') as brand,
    base_analizer(line,'sv') as sdk_version,
    base_analizer(line,'g') as gmail,
    base_analizer(line,'hw') as height_width,
    base_analizer(line,'t') as app_time,
    base_analizer(line,'nw') as network,
    base_analizer(line,'ln') as lng,
    base_analizer(line,'la') as lat,
    event_name,
    event_json,
    base_analizer(line,'st') as server_time
from ods_event_log lateral view flat_analizer(base_analizer(line,'et')) tmp_flat as event_name,event_json
where dt='2020-07-13' and base_analizer(line,'et')<>'';

我这个例子是要想ODS原始层中的数据清洗到DWD资源层中,其中base_analizer就是前面说的对JSON做初步解析的UDF,flat_analizer就是我们上面写的UDTF函数,从这个例子中大家应该就可以理解我之前说的UDTF结果是以表的形式展现的了吧,同时哪家可以自己写一个简单地,看看代码中process方法的参数和具体使用时传入的参数是什么样的关系

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值