Spark递归遍历HDFS并筛选文件，Spark集群模式记录自己的调试日志

最新推荐文章于 2024-08-29 14:12:36 发布

haixwang

最新推荐文章于 2024-08-29 14:12:36 发布

阅读量2.1k

点赞数

分类专栏： Hadoop、Spark、Hbase...

本文链接：https://blog.csdn.net/haixwang/article/details/90288920

版权

本文介绍了如何在Spark集群模式下递归遍历HDFS文件系统并筛选文件，以及详细步骤来配置Spark的调试日志，包括尝试不同方式在Yarn上应用自定义log4j.properties文件。

摘要由CSDN通过智能技术生成

文章目录

一、递归遍历HDFS并筛选文件
- 1-1、对于本地文件系统
- 1-2、对于HDFS文件系统
二、Spark集群模式记录自己的调试日志
参考

一、递归遍历HDFS并筛选文件

1-1、对于本地文件系统

    public static boolean logFilter(Path path){
   
        return path.toString().toLowerCase().endsWith(".log");
    }
    public static Set<Path> listLogs(String path) throws IOException {
   
        Set<Path> logFiles = Files.walk(Paths.get(path))
                .filter(Utils::logFilter).collect(Collectors.toSet());
        // logFiles.forEach(System.out::println);
        return logFiles;
    }

1-2、对于HDFS文件系统

def traverseDir(hdconf: Configuration, path: String, recursive: Boolean, filePaths: StringBuffer) {
   
    val files = FileSystem.get(hdconf).listStatus(new Path(path))
    files.foreach {
    fStatus => {
   
      if (!fStatus.isDirectory && fStatus