UDF(PYTHON / JAVA)入门级开发

本文介绍了如何开发Spark SQL的UDF,包括Java和Python两种方式。首先讲解了开发UDF的背景,强调在内置函数不能满足需求时才考虑自定义。接着详细阐述了Java UDF的创建过程,从创建Maven工程、编写代码、生成jar包到上传到HDFS。最后提到了Python UDF的开发,并警告使用Transform可能导致资源管理问题,建议谨慎使用。
摘要由CSDN通过智能技术生成

开发前的声明

        udf开发是在数据分析的时候如果内置的函数解析不了的情况下去做的开发,比方说你只想拆分一个字段,拼接一个字段之类的,就不要去搞udf了,这种基本的需求自带函数完全支持,具体参数可参考文档:

        spark-sql内置函数

        里面列举了所有函数的介绍和使用,推荐优先使用官方推出的,因为自己写的udf如果对一些异常处理不到位可能会导致数据分析的失败或者意想不到的情况。但是内置的函数真的满足不了那就真的没办法了,比如在做数据分析的时候经常使用的是ip解析,这个通常就需要自己开发udf了。

优质UDF开发示例:

(1)、节假日日期筛选        (2)、UDF开发流程

常见错误:

(1)、Error : java 不支持发行版本X

pom文件查询配置: jar包配置搜索官方地址:http://mvnrepository.com/<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值