Spark跨集群读取HDFS文件

最新推荐文章于 2023-02-09 15:08:25 发布

一个数据小开发

最新推荐文章于 2023-02-09 15:08:25 发布

阅读量3k

点赞数 3

分类专栏：大数据 # Spark 文章标签： spark hdfs hadoop

本文链接：https://blog.csdn.net/aaron_ch/article/details/122058723

版权

大数据同时被 2 个专栏收录

27 篇文章 9 订阅

订阅专栏

Spark

16 篇文章 3 订阅

订阅专栏

大家平时可能都是在本集群上读取本地的HDFS文件，那如果我有两套集群呢？这个时候该如何读取另外一套集群上面的HDFS文件呢？废话不多说，直接上代码，如果代码有关于一些nameservices等这些信息不知道去哪里看的人，可以翻翻我之前的博客，或者私信我。

public static void main(String[] args) {

        SparkConf conf = new SparkConf().setAppName("bigdata-spark-etl-task")
                .setMaster("local[*]");
        
        SparkSession sparkSession = SparkSession.builder()
                .config(conf)
                .getOrCreate();
        
        Map<String, String> nameNodeMap = new HashMap<>();

        nameNodeMap.put("namenode33", "incubator-dc-006:8020");
        nameNodeMap.put("namenode35", "incubator-dc-007:8020");

        hdfsReader(sparkSession, "test-ns1", nameNodeMap, "hdfs://test-ns1/dw/public/test/ads_mkt_td_user_ds");
}


static Dataset<Row> hdfsReader(SparkSession sparkSession, String nameServices, Map<String, String> nameNodeMap, String hdfsDir) {

        SparkContext sparkContext = sparkSession.sparkContext();
        sparkContext.hadoopConfiguration().set("fs.defaultFs", "hdfs://" + nameServices);
        sparkContext.hadoopConfiguration().set("dfs.nameservices", nameServices);

        List<String> nameNodesLists = new ArrayList<>();

        StringBuilder haNameNodes = new StringBuilder();
        int i = 0;
        for (Map.Entry<String, String> nameNodes : nameNodeMap.entrySet()) {
            nameNodesLists.add(nameNodes.getKey());
            if (i == 0) {
                haNameNodes = new StringBuilder(nameNodes.getKey());
            } else {
                haNameNodes.append(",").append(nameNodes.getKey());
            }
            i++;
        }

        sparkContext.hadoopConfiguration().set("dfs.ha.namenodes." + nameServices, haNameNodes.toString());

        for (String nameNodesList : nameNodesLists) {
            sparkContext.hadoopConfiguration().set("dfs.namenode.rpc-address." + nameServices + "." + nameNodesList, nameNodeMap.get(nameNodesList));
        }

        sparkContext.hadoopConfiguration().set("dfs.ha.automatic-failover.enabled." + nameServices, "true");
        sparkContext.hadoopConfiguration().set("dfs.client.failover.proxy.provider." + nameServices, "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider");
        sparkSession.read().load(hdfsDir).show();
        return sparkSession.read().load(hdfsDir);
    }

一个数据小开发

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Spark跨集群读取HDFS文件

大家平时可能都是在本集群上读取本地的HDFS文件，那如果我有两套集群呢？这个时候该如何读取另外一套集群上面的HDFS文件呢？废话不多说，直接上代码，如果代码有关于一些nameservices等这些信息不知道去哪里看的人，可以翻翻我之前的博客，或者私信我。
复制链接

扫一扫