Python:更快地遍历文件夹

【概述】

说起,如何快速地遍历文件夹。或许,某人立刻就想到了线程池,几个worker并行处理遍历任务,总比一个worker的速度更快吧。当然,很多人不以为然。这要看单机性能是否够强悍,使你能够起更多的worker,以加快速度。我们,先来看看Python遍历文件夹的几种方案:

  1. 分析MFT,获取目录结构(仅适合NTFS格式);
  2. 使用os.walk或os.path.walk遍历;
  3. 使用os.listdir递归遍历;
  4. 创建一个shell process交互,使用ls(windows 下dir.exe)遍历;
  5. 线程池并行处理遍历,工作线程使用os.listdir。

至于第一种方案,需要读取卷中的$MFT文件,并分析里面的文件记录项,代表作为everything.exe,此处略过。

【walk遍历】

这是最简单施工的一种目录遍历,Python已经把的性能做的很好,应付结构复杂度小的目录,显得性能最佳。

def IterateFiles(directory):
    assert os.path.isdir(directory),'make sure directory argument should be a directory'
    result = []
    for root,dirs,files in os.walk(directory, topdown=True):
        for fl in files:
            result.append(os.path.join(root,fl))

    return result

有一个缺陷,如果子文件夹过深,将导致如下错误:

names = listdir(top)
TypeError: must be (buffer overflow), not st

此时,将参数directory的值使用Unicode对象即可,如:

directory = u”D:\\”

另外,walk函数参数topdown设置为True时,将自顶向下遍历。经检验,这样的遍历速度最优。

【递归遍历】

递归遍历,我最讨厌的一种方案。理论上,它是相当的费时间,同时在这里,还不能使用迭代器,造成内存空间大部分的占用,实不适宜用来应对大文件夹。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Python 和 Java 都可以递归地遍历文件夹下的所有文件,并对比它们的内容。但是两种语言的实现方式不同,因此它们的耗时也有所不同。 一般来说,Java 的执行速度比 Python 快,因为 Java 是编译型语言,而 Python 是解释型语言。在对比递归文件夹下所有文件时,Java 的速度通常比 Python 快得多。 以下是一个简单的对比测试: Python 代码: ```python import os import filecmp import time start_time = time.time() def compare_files(dir1, dir2): for root, dirs, files in os.walk(dir1): for file in files: path1 = os.path.join(root, file) path2 = os.path.join(dir2, os.path.relpath(path1, dir1)) filecmp.cmp(path1, path2) compare_files("path/to/dir1", "path/to/dir2") end_time = time.time() print(f"Elapsed time: {end_time - start_time:.2f} seconds") ``` Java 代码: ```java import java.io.File; import java.nio.file.Files; import java.util.Arrays; public class FileComparator { public static void compareFiles(String dir1, String dir2) throws Exception { File[] files1 = new File(dir1).listFiles(); for (File file1 : files1) { File file2 = new File(dir2, file1.getName()); if (!Arrays.equals(Files.readAllBytes(file1.toPath()), Files.readAllBytes(file2.toPath()))) { } if (file1.isDirectory()) { compareFiles(file1.getPath(), file2.getPath()); } } } public static void main(String[] args) throws Exception { long start_time = System.currentTimeMillis(); compareFiles("path/to/dir1", "path/to/dir2"); long end_time = System.currentTimeMillis(); System.out.printf("Elapsed time: %.2f seconds\n", (end_time - start_time) / 1000.0); } } ``` 在我的电脑上,Python 的执行时间约为 5 秒,而 Java 的执行时间约为 1 秒。这是因为 Java 的执行速度比 Python 快,而且 Java 的并发能力也比 Python 更强,可以更好地利用多核处理器的性能。 当然,实际的执行时间会受到多种因素的影响,例如计算机的硬件配置、操作系统的性能等等,因此具体情况可能会有所不同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值