Spark SQL: Error in query: undefined function错误的解决方法

最新推荐文章于 2024-07-16 15:55:10 发布

Laurence　

最新推荐文章于 2024-07-16 15:55:10 发布

阅读量1.2w

点赞数 1

分类专栏：大数据专题文章标签： spark-sql undefined function error query

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/bluishglc/article/details/50748937

版权

大数据专题专栏收录该内容

184 篇文章 299 订阅

订阅专栏

本文原文出处: http://blog.csdn.net/bluishglc/article/details/50748937 严禁任何形式的转载，否则将委托CSDN官方维护权益！

问题描述

如果你在Spark SQL上试图调用在HIVE注册的自定义函数（UDF）时，你可能会遇到这样的错误：

Spark SQL: Error in query: undefined function xxxxxx

这个问题发生在Spark 1.5.0, 1.5.1和1.5.2版本上，对此Spark官方有一个专门的bug report: https://issues.apache.org/jira/browse/SPARK-11191

简单说，引起这个bug的原因是Spark SQL在与HIVE的（主要是Hive的元数据）交互上，在UDF方面有问题，导致Spark SQL无法正确的得到UDF的信息。针对这个问题最简单的解决方法当然是升级Spark，但是可能受制于其他因素，我们无法升级，这时就需要从别的途径来解决这个问题了。

解决方案

这里提供一个参考的解决方案，这个方案的思路是：绕过HIVE，直接在Spark上注册UDF。但这里有一个地方需要斟酌的地方，那就是在哪里和什么样的时机去注册UDF。这里有一个假定，即：所有的SQL语句是抽离到专门的SQL文件中去，然后通过spark-sql -f /your/sql/file 的方式来执行的，通常我们认为这是更加规范的做法，而不是在scala或java代码中去嵌入sql语句，那么在这样一个前提下，注册UDF的入口应该是spark-sql这个脚本的初始化环节中的某个地方，通过浏览Spark源码，我们得知spark-sql的入口是

org.apache.spark.sql.hive.thriftserver.SparkSQLCLIDriver

而SparkSQLCLIDriver会通过

org.apache.spark.sql.hive.thriftserver.SparkSQLEnv#init

去初始化一个HiveContext，这个HiveContext就是spark-sql启动后建立的hiveContext实例，同时也是后续SQL执行时使用的hiveContext实例，因此在这个实例的初始化方法就是我们注册我们的UDF的入口，我们可以在

hiveContext.setConf("spark.sql.hive.version", HiveContext.hiveExecutionVersion)

这一行之后添加注册UDF的代码：

hiveContext.udf.register("your_function_name",yourFunction _)

修改完成之后重新编译，把编译后的SparkSQLEnv的所有class文件更新到各个节点的spark的jar包中就可以了。

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Laurence 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。