Hive在SQL标准权限模式下创建UDF失败的问题排查

在Hive1.1.0与CDH5.16环境下,使用SQLStandardsBasedAuthorization(SSBA)模式时,创建自定义函数(UDF)遇到权限拒绝错误。文章详细分析了问题原因,涉及HDFSURI权限、数据库及函数对象的admin权限需求,最终通过HiveCLI绕过SSBA验证成功部署UDF。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

环境:

CDH 5.16

Hive 1.1.0

已开启Kerberos

Hive 授权使用SQL StandardsBased Authorization模式(以下简称SSBA模式)


症状表现:

在编译好UDF的jar包之后,上传到HDFS目录。

hdfs dfs -mkdir /udf
hdfs dfs -put -f my_udf.jar /udf

以管理员用户hive,进入beeline客户端。


切换到管理员角色,执行:

set role admin;

提示成功切换角色后,执行创建自定义函数语句:

create function default.ch_cnv as 'com.my.hive.udf.ChsUDF' using jar 'hdfs:///udf/my_udf.jar';

创建自定义函数报错,提示对应用在CREATE FUNCTION上的DFS_URI对象没有“管理权限”:

Error: Error while compiling statement:FAILED: HiveAccessControlException Permission denied: Principal [name=hive,type=USER] does not have following privileges for operation CREATEFUNCTION [[ADMINPRIVILEGE] on Object [type=DFS_URI, name=hdfs://nameservice1/udf/my_udf.jar]](state=42000,code=40000)

尝试带temporary创建临时函数,也是报同样的错误:

create temporary function default.ch_cnv as'com.my.hive.udf.ChsUDF' using jar 'hdfs:///udf/my_udf.jar';

分析思路:

在SSBA模式下,执行某一些语句会要求对应的HDFS URI必须为rwx+所有者的权限,非常繁琐(所以从Hive 3.0.0开始,基于SSBA的方式进行授权时,对URI权限要求,进行了大幅度的修改。例如建立外表时,不再要求用户必须是HDFS目录的所有者,只需要拥有rw权限即可)。会不会是这里出了问题?


先查阅官方文档:

https://cwiki.apache.org/confluence/display/Hive/SQL+Standard+Based+Hive+Authorization

在这里插入图片描述
官方文档上清楚的显示CREATE FUNCTION操作是和HDFS URI权限完全无关的。


难道是官方文档写错了???

尝试将jar权限改为777,所属用户和组都修改为hive。

重试create function语句,没有效果,依然报同样的错误。


这条路走不通,那就试试看能不能从别的信息入手。


重新以hive身份进入beeline,不执行set role admin,就以普通的public角色身份,执行create function语句,提示:

Error: Error while compiling statement:FAILED: HiveAccessControlException Permission denied: Principal [name=hive,type=USER] does not have following privileges for operation CREATEFUNCTION [[ADMINPRIVILEGE] on Object [type=DATABASE, name=default], [ADMIN PRIVILEGE] on Object[type=DFS_URI, name=hdfs://nameservice1/udf/my_udf.jar], [ADMIN PRIVILEGE] onObject [type=FUNCTION, name=default.ch_cnv]](state=42000, code=40000)

这时可以看到,对于执行create function,要求了三个权限:

1、 数据库的admin权限
2、 HDFS URI的admin权限
3、 函数对象的admin权限


其中1和3与官方文档的描述是完全一致的。而我们set role admin之后,1和3都被满足。只有2却依然不满足,这说明并不是我们的管理员角色配置,或是管理员角色切换出现了问题。


那只剩下一种可能性,Hive的这个功能有BUG…


搜索的时候,发现了一名网友遇到了同样的问题:

同样的问题

http://lxw1234.com/archives/2016/01/600.htm


虽然并没有人解答这个问题,但至少说明这并非奇特的个案。


来到Apache的官方JIRA,进行搜索。果然有相关的BUG报告:

HIVE-11175

https://issues.apache.org/jira/browse/HIVE-11175


从描述和提交的补丁来看,是Hive在SSBA模式下进行create function的语义分析时,错误的将一个输入型资源(UDF的JAR包),当作了输出型资源。要求对该路径施加写的管理员权限(实际应当为要求读的权限),一个已经存在的输入型资源是只读的,于是导致永远卡死在这个验证上。


解决方法:

由于已经对Hive集群实施了SSBA模式,所以我们肯定是不可能为了装载一个UDF函数,就去临时将集群的验证关闭的。彻底关闭会有一段时间暴漏在安全风险中,并且还需要重启服务,临时关闭需要重启一次,开启又要重启一次,这会非常麻烦。


另外一种方式就是去应用前面社区中提交的补丁到源码重新编译,然后替换有问题的JAR包。这个补丁目前还没被集成到Hive的主线中,这么做存在一定风险。而且目前这个集群是客户购买的商业版的CDH,也不太建议自己去弄。


怎么办?这个时候就要请最老旧的Hive CLI上场了!


Hive CLI正是由于不兼容完备的授权模式(Sentry/Ranger/SSBA),可以绕过这些安全限制,所以被官方用beeline给代替了,只在Hive3之前的版本,作为一个兼容性功能保留。


所以一旦开启了Hive授权,都是建议对普通用户禁用Hive CLI的(除非你有Spark多租户的需求,否则都会进行下面的HMS代理禁用)。最常见的禁用手段,就是通过配置Hive的hadoop.proxyuser.hive.groups(Hive Metastore 访问控制和代理用户组覆盖),指定值由 * 改为具体的管理员组,使得普通用户就算进入Hive CLI,也无法操作,但是管理员组用户依然可以进入Hive CLI操作。


所以我们可以使用hive管理员用户,直接进入Hive CLI,绕过SSBA的验证过程,来创建UDF函数:

kinit -k -t hive.keytab hive@XXX.COM
hive

进入Hive CLI后,执行:

create function default.ch_cnv as 'com.my.hive.udf.ChsUDF' using jar 'hdfs:///udf/my_udf.jar';

提示创建成功!

切换到beeline,试用带UDF函数的HQL语句,没有问题。搞定!


<think>嗯,用户之前已经问过自定义UDF函数,现在又问Hive UDF的实现,可能需要更具体的步骤。首先,我要确定用户的需求是什么。可能他们现在在使用Hive,遇到了需要扩展功能的情况,而内置函数不够用。用户可能是一名数据工程师或者数据分析师,需要处理大数据,用Hive进行数据清洗或复杂计算。 接下来,我需要回顾Hive UDF的不同类型,比如普通UDF、UDAF和UDTF,因为用户可能不清楚这些区别。然后,实现步骤是关键,用户需要具体的代码示例和注册方法。用户可能对Java比较熟悉,因为Hive UDF通常用Java编写,但也要提到其他语言的可能性,比如Python,虽然Hive原生支持可能有限。 然后,注意事项部分很重要,比如性能问题、错误处理、版本兼容性。用户可能在开发过程中会遇到性能瓶颈,或者部署时的依赖问题。另外,测试用例也是用户需要的,他们可能想知道如何验证自己的UDF是否正确。 用户可能还有更深的疑问,比如如何优化UDF的性能,或者如何处理复杂数据类型,比如数组或Map。所以,在回答时要涵盖这些高级用法,并给出示例。同时,要提醒用户优先使用内置函数,避免不必要的UDF带来的维护成本。 最后,确保结构清晰,步骤分解明确,代码示例正确,并且符合用户之前提到的格式要求,比如数学公式用$$包裹,代码块用正确语法高亮。还要检查是否所有行内公式都用了$符号,独立公式单独成段,避免格式错误。需要确认是否涵盖了用户可能的痛点,比如部署步骤、依赖管理,以及实际应用场景,帮助用户更好地理解和应用Hive UDF。</think>好的,我将通过具体步骤介绍Hive UDF的实现方法: --- ### **1. Hive UDF基础原理** Hive UDF通过Java类继承特定父类实现,核心处理逻辑发生在`evaluate()`方法中,其执行流程可表示为: $$ \text{输入数据} \xrightarrow{\text{UDF映射}} \text{处理结果} $$ #### **UDF类型对比** | 类型 | 父类 | 功能特点 | |-----------|---------------------|--------------------| | 普通UDF | `UDF` | 一进一出(单行处理) | | 聚合UDF(UDAF)| `UDAF` | 多进一出(分组聚合) | | 表生成UDF(UDTF)| `GenericUDTF` | 一进多出(行转列) | --- ### **2. 标准开发流程** #### **(1) 创建Java类** ```java // 示例:字符串反转UDF package com.hive.udf; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public class ReverseStringUDF extends UDF { public Text evaluate(Text input) { if (input == null) return null; return new Text(new StringBuilder(input.toString()).reverse().toString()); } } ``` #### **(2) 编译打包** ```bash # 需包含Hive依赖(hive-exec.jar) javac -cp /path/to/hive/lib/* ReverseStringUDF.java jar cf udf.jar com/hive/udf/*.class ``` #### **(3) Hive注册** ```sql -- 上传JAR到HDFS(生产环境推荐) ADD JAR /local/path/udf.jar; -- 创建临时函数 CREATE TEMPORARY FUNCTION reverse_udf AS 'com.hive.udf.ReverseStringUDF'; ``` #### **(4) 调用验证** ```sql SELECT reverse_udf('hello'); -- 输出'olleh' ``` --- ### **3. 高级实现技巧** #### **(1) 多参数处理** ```java // 计算两点间距离 public class DistanceUDF extends UDF { public Double evaluate(Double x1, Double y1, Double x2, Double y2) { return Math.sqrt(Math.pow(x2-x1,2) + Math.pow(y2-y1,2)); } } ``` 调用方式:`SELECT distance_udf(116.40,39.90,121.47,31.23)` #### **(2) 复杂类型处理** 处理`ARRAY`类型: ```java public class ArraySumUDF extends UDF { public Double evaluate(List<Double> arr) { return arr.stream().mapToDouble(Double::doubleValue).sum(); } } ``` #### **(3) 优化技巧** - **缓存重用对象**:避免在`evaluate()`中频繁创建对象 - **类型检查**:增加空值处理逻辑 - **使用Writable类型**:正确使用`Text/IntWritable`等Hadoop类型 --- ### **4. 调试与部署** #### **(1) 单元测试** ```java @Test public void testReverseUDF() { ReverseStringUDF udf = new ReverseStringUDF(); assertEquals("cba", udf.evaluate(new Text("abc")).toString()); } ``` #### **(2) 错误排查** - 查看Hive日志:`tail -f /tmp/{user}/hive.log` - 常见错误码: - `SemanticException [Error 10011]: Invalid function` → 类路径错误 - `ClassNotFoundException` → JAR未正确加载 --- ### **5. 实际应用案例** #### **(1) 数据脱敏** ```java // 手机号中间四位脱敏 public String evaluate(String phone) { return phone.replaceAll("(\\d{3})\\d{4}(\\d{4})", "$1****$2"); } ``` #### **(2) JSON解析** ```sql SELECT json_get(info, '$.user.address') FROM log_table; ``` --- ### **6. 注意事项** 1. **性能影响**:UDF会引发MapReduce任务,避免在超大规模数据集逐行调用 2. **版本兼容**:Hive 2.x与3.x的UDF接口存在差异 3. **热部署**:修改UDF后需`RELOAD FUNCTION` 4. **安全限制**:禁止在UDF中执行系统命令 --- **最佳实践建议**: 优先使用Hive内置函数(约300+个),仅在以下场景使用UDF: - 特定业务逻辑(如金融行业计算IRR) - 特殊格式解析(非标准JSON/XML) - 性能敏感型计算(需结合Java本地代码优化)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值