flink sql 知其所以然（十八）：在 flink 中还能使用 hive udf？附源码

最新推荐文章于 2023-03-30 14:09:33 发布

大数据羊说

最新推荐文章于 2023-03-30 14:09:33 发布

阅读量1.7k

点赞数 1

分类专栏： Apache Flink 实时计算 Flink SQL 文章标签： hive flink sql

本文链接：https://blog.csdn.net/qq_34608620/article/details/122915704

版权

本文探讨在Flink SQL中如何使用Hive的内置UDF以及自定义UDF，通过扩展Flink的module实现对Hive UDF的支持，提高实时数仓开发效率。内容包括Flink对Hive内置UDF的扩展、自定义Hive UDF的挑战及解决方案。

摘要由CSDN通过智能技术生成

1.序篇

源码公众号后台回复1.13.2 sql hive udf获取。

废话不多说，咱们先直接上本文的目录和结论，小伙伴可以先看结论快速了解博主期望本文能给小伙伴们带来什么帮助：

背景及应用场景介绍：博主期望你能了解到，其实很多场景下实时数仓的建设都是随着离线数仓而建设的（相同的逻辑在实时数仓中重新实现一遍），因此能够在 flink sql 中复用 hive udf 是能够大大提高人效的。
flink 扩展支持 hive 内置 udf：flink sql 提供了扩展 udf 的能力，即 module，并且 flink sql 也内置了 HiveModule（需要你主动加载进环境），来支持一些 hive 内置的 udf （比如 get_json_object）给小伙伴们使用。
flink 扩展支持用户自定义的 hive udf：主要介绍 flink sql 流任务中，不能使用 create temporary function 去引入一个用户自定义的 hive udf。因此博主只能通过 flink sql 提供的 module 插件能力，自定义了 module，来支持引入用户自定义的 hive udf。

其实大多数公司都是从离线数仓开始建设的。相信大家必然在自己的生产环境中开发了非常多的 hive udf。随着需求对于时效性要求的增高，越来越多的公司也开始建设起实时数仓。很多场景下实时数仓的建设都是随着离线数仓而建设的。实时数据使用 flink 产出，离线数据使用 hive\spark 产出。

那么回到我们文章标题的问题：为什么需要 flink 支持 hive udf 呢？

博主分析了下，结论如下：

站在数据需求的角度来说，一般会有以下两种情况：

以前已经有了离线数据链路，需求方也想要实时数据。如果直接能用已经开发好的 hive udf，则不用将相同的逻辑迁移到 flink udf 中，并且后续无需费时费力维护两个 udf 的逻辑一致性。
实时和离线的需求都是新的，需要新开发。如果只开发一套 udf，则事半功倍。

关注

专栏目录