在spark udf中读取hdfs上的文件

最新推荐文章于 2022-10-12 14:57:45 发布

diaoxie5099

最新推荐文章于 2022-10-12 14:57:45 发布

阅读量897

点赞数

文章标签：大数据 java

原文链接：http://www.cnblogs.com/dtmobile-ksw/p/11468557.html

版权

某些场景下，我们在写UDF实现业务逻辑时候，可能需要去读取某个文件。

我们可以将此文件上传个hdfs某个路径下，然后通过hdfs api读取该文件，但是需要注意：

　　UDF中读取文件部分最好放在静态代码块中（只会在类加载时候读取一次）或者放在构造方法中（在实例化的时候执行一次），尤其在处理的数据量比较大的时候，否则会反反复复的读取，造成不必要的开销，甚至任务失败，示例代码如下：

package cn.com.dtmobile.udf;

import java.util.HashMap;

import org.apache.spark.sql.api.java.UDF2;

import cn.com.dtmobile.util.HdfsUtil;

public class CalculateRsrp implements UDF2<Double, String, Double> {

    private static final long serialVersionUID = 1L;

    private static HashMap<String,Double> paramteres = null;
    static {
        paramteres = HdfsUtil.readHdfsFile("your file location");
    }
    
    @Override
    public Double call(Double t1, String t2) throws Exception {

        // 处理逻辑
        
        return null;
    }

}