关于hive,spark,pyspark 使用UDF的一些理解（总结）

最新推荐文章于 2024-07-15 16:57:53 发布

gao_shi_qing

最新推荐文章于 2024-07-15 16:57:53 发布

阅读量1.8k

点赞数

分类专栏： Spark udf 大数据

本文链接：https://blog.csdn.net/java_web001/article/details/99977699

版权

本文介绍了在hive, spark和pyspark中使用用户定义函数(UDF)的不同方法，包括在hive中使用java和scala编写UDF，在spark中注册UDF的推荐方式，在pyspark中使用python UDF、pandas UDF以及通过jar包注册UDF的优缺点。" 120808285,11537307,图的连通性：割点、桥、欧拉路径与强连通分量,"['图论算法', '数据结构', '图的遍历']

摘要由CSDN通过智能技术生成

文章目录

- 使用方式

使用方式

1.在hive中使用udf

1.1使用java代码编写udf

一句话总结：继承UDF类，重写evaluate（）方法。
打成jar包之后，要么注册成hive的临时函数，要么注册为永久函数。
hive注册临时函数
	hive>add jar /xxx/xxx/your_udf.jar;
	hive>CREATE TEMPORARY FUNCTION func_name AS 'com.xxx.xxxx.MyUDF';
	hive>list jars;//查看添加好的jar包；
	hive>show functions like ’func_*‘; //查看函数
hive注册永久函数
	hive>CREATE FUNCTION [db_name].func_name AS 'com.xxx.xxx.MyUDF' USING JAR 'hdfs://hadoop002:9000/xxx/xxx.jar'; //使用时要注意库的位置，非当前库操作需要加上库名方可使用

1.2使用scala代码编写udf

实验过，没创建成功，不能给hive用，也没人这么做，SB了，估计scala写的extend UDF1只能在scala编码使用

2.在spark中使用udf

2.1在spark中注册udf（推荐）

核心代码(spark2.x以上版本)

spark.udf.register("str_len", (str: String) => str.length())
spark.

最低0.47元/天解锁文章

gao_shi_qing

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录