UDF函数开发中的坑

1、udf在打包的时候,尽量把所有的包都打进去,避免由于本身执行udf的环境没有udf所需要的环境,或者和开发udf时在本地用到的环境版本不一致而导致上线后跑出来的结果和本地测试有差异

例子:

 

2、如果udf中有需要落文件,并且需要读取文件的操作,并且此时用的是公司统一的数据开发平台,那么比如我第一步先将文件写到某个路径(相对路径,因为绝对路径一般不给权限)下,然后udf在逻辑中会读取这个路径,此时就会读不到,因为几乎不会跑在一个节点上,所以此时要用create templete function 的方式创建udf,然后将jar包,文件等放到对应hdfs上,然后udf才可以读到文件。

例子:

 

3、如果udf中链接了mysql,由于数据库配置问题,可能会导致创建连接数太多导致任务失败

4、udf中尽量使用GenericUDTF,其次是GenericUDF,最后是UDF,前者更容易扩展。

5、udf中一旦使用了要读区文件,通过链接mysql,hive查询等,然后返回一个集合或者对象来使用,那么就必须将这个变量设置为全局变量,否则就会导致udf只会通过一个map或者reduce去执行任务,非常非常慢,设置参数来进行map和reduce的数量划分都不管用。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值