大数据 Hive之自定义UDF

最新推荐文章于 2024-08-13 16:51:08 发布

半坡人

最新推荐文章于 2024-08-13 16:51:08 发布

阅读量491

点赞数 1

分类专栏： hadoop 大数据

本文链接：https://blog.csdn.net/sy755754582/article/details/89714334

版权

大数据同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

hadoop

2 篇文章 0 订阅

订阅专栏

文章目录

1.什么是UDF？

在Hive中，用户可以自定义一些函数，用于扩展HiveQL的功能，这就是类函数UDF（用户自定义函数）。
hive的类SQL预发给数据挖掘工作者带来了很多便利，海量数据通过简单的sql就可以完成分析，有时候hive提供的函数功能满足不了业务需要，就需要我们自己来写UDF函数来辅助完成，

用户构建的UDF使用过程如下：
第一步：继承UDF或者UDAF或者UDTF，实现特定的方法。
第二步：将写好的类打包为jar。如hivefirst.jar.
第三步：进入到Hive外壳环境中，利用add jar /home/hadoop/hivefirst.jar.注册该jar文件
第四步：为该类起一个别名，create temporary function f1 as ‘com.whut.StringLength’;这里注意UDF只是为这个Hive会话临时定义的。
第五步：在select中使用f1(); 像这样：select f1(字段名) from [tablename];

下面用一个简单的例子说明过程：

2.一个栗子

现在假设我们有一串电话号码，我们想要获取他们的归属地，然后我们罗列一张电话头信息表，元数据+筛选表+UDF函数=地理位置。如下图所示：
在这里插入图片描述
这里有一张从kafka（信息队列）那里采集过来的电话号码：

2.1 创建UDF项目（磨刀）：

构建一个maven project，添加下面的依赖：

    <!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec -->
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-exec</artifactId>
        <version>2.3.3</version>
    </dependency>

然后创建一个类，实现查询地址的方法

public class PhoneArea extends UDF {

	//重写方法evaluate()
    public String evaluate(String phone) throws Exception{
        try {
        	//连接数据库
            Class.forName("com.mysql.jdbc.Driver");
            Connection con = DriverManager.getConnection("jdbc:mysql://192.168.49.125:3306/phone_area","root","123456");
            PreparedStatement ps = con.prepareStatement("select mobileArea from phone_area where mobileNumber=?");
            //将hive中的phnum的前7位作为查询条件查询数据
            ps.setString(1, phone.substring(0,7));
            ResultSet rs = ps.executeQuery();
            while(rs.next()){
                //根据查询结果进一步筛选地址并返回
                return rs.getString("mobileArea");
            }
        } catch (Exception e) {
            // TODO: handle exception
            e.printStackTrace();
        }
        return "未知区域";
    }
}