1、udf在打包的时候,尽量把所有的包都打进去,避免由于本身执行udf的环境没有udf所需要的环境,或者和开发udf时在本地用到的环境版本不一致而导致上线后跑出来的结果和本地测试有差异
例子:
2、如果udf中有需要落文件,并且需要读取文件的操作,并且此时用的是公司统一的数据开发平台,那么比如我第一步先将文件写到某个路径(相对路径,因为绝对路径一般不给权限)下,然后udf在逻辑中会读取这个路径,此时就会读不到,因为几乎不会跑在一个节点上,所以此时要用create templete function 的方式创建udf,然后将jar包,文件等放到对应hdfs上,然后udf才可以读到文件。
例子:
3、如果udf中链接了mysql,由于数据库配置问题,可能会导致创建连接数太多导致任务失败
4、udf中尽量使用GenericUDTF,其次是GenericUDF,最后是UDF,前者更容易扩展。
5、udf中一旦使用了要读区文件,通过链接mysql,hive查询等,然后返回一个集合或者对象来使用,那么就必须将这个变量设置为全局变量,否则就会导致udf只会通过一个map或者reduce去执行任务,非常非常慢,设置参数来进行map和reduce的数量划分都不管用。