Python：更快地遍历文件夹

最新推荐文章于 2025-09-07 11:04:41 发布

原创最新推荐文章于 2025-09-07 11:04:41 发布 · 9.5k 阅读

9 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

7 篇文章

订阅专栏

本文探讨了Python中遍历文件夹的几种方法，包括`os.walk`、递归遍历、借助`dir.exe`和使用线程池。在不同场景下，各方法的性能表现不同。`os.walk`在浅目录结构下性能优异，递归遍历在小文件夹中速度较快但不适用于深度大的目录，调用`dir.exe`在大文件夹中速度快但内存占用高，而线程池可能因阻塞问题而不适合此任务。速度对比显示，调用`dir.exe`的方法在大文件夹遍历上表现出色。

【概述】

说起，如何快速地遍历文件夹。或许，某人立刻就想到了线程池，几个worker并行处理遍历任务，总比一个worker的速度更快吧。当然，很多人不以为然。这要看单机性能是否够强悍，使你能够起更多的worker，以加快速度。我们，先来看看Python遍历文件夹的几种方案：

分析MFT，获取目录结构（仅适合NTFS格式）；
使用os.walk或os.path.walk遍历；
使用os.listdir递归遍历；
创建一个shell process交互，使用ls（windows 下dir.exe）遍历；
线程池并行处理遍历，工作线程使用os.listdir。

至于第一种方案，需要读取卷中的$MFT文件，并分析里面的文件记录项，代表作为everything.exe，此处略过。

【walk遍历】

这是最简单施工的一种目录遍历，Python已经把的性能做的很好，应付结构复杂度小的目录，显得性能最佳。

def IterateFiles(directory):
    assert os.path.isdir(directory),'make sure directory argument should be a directory'
    result = []
    for root,dirs,files in os.walk(directory, topdown=True):
        for fl in files:
            result.append(os.path.join(root,fl))

    return result

有一个缺陷，如果子文件夹过深，将导致如下错误：

names = listdir(top)
TypeError: must be (buffer overflow), not st

此时，将参数directory的值使用Unicode对象即可，如：

directory = u”D:\\”

另外，walk函数参数topdown设置为True时，将自顶向下遍历。经检验，这样的遍历速度最优。

【递归遍历】

递归遍历，我最讨厌的一种方案。理论上，它是相当的费时间，同时在这里，还不能使用迭代器，造成内存空间大部分的占用，实不适宜用来应对大文件夹。

def IterateFile_Recursion(directory):
    assert os.path.isdir(directory),'make sure directory argument should be a directory'
    def recuirfunc(dirs,result):
        if not dirs:
            return result

        temp = dirs.pop()
        for item in os.listdir(temp):
            path = os.path.join(temp,item)
            if os.path.isdir(path):
                dirs.append(path)
            else:
                result.append(path)

        recuirfunc(dirs,result)

    dirs = [directory]
    result = []
    recuirfunc(dirs,result)

    return result

另外，如果文件夹的深度过深，会导致以下报错：

RuntimeError: maximum recursion depth exceeded in cmp

另外，python不允许过多的递归次数，所以请弃用。
可是，我的实验数据说明，面对小文件夹，递归调用更是一把利剑，速度比walk还快。

【借用dir.exe】

即是调用subprocess.Popen创建一个dir.exe进程，通过subprocess.PIPE与之进行交互（处理输入输出）。请注意，如果目录结构复杂，包含大量的子文件夹和文件，容易造成通信阻塞。因此，我们需要及时处理输出，使管道畅通。

def IterateFiles_CMD(directory):
    assert os.path.isdir(directory),'make sure directory argument should be a directory'
    cmd = 'dir /s /B /A-D ' + directory
    ret = []
    p = subprocess.Popen(cmd,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE)

    for line in p.stdout.readlines():
        ret.append(line)

    if p.wait() == 0:
        return ret

我们使用help dir查看dir.exe使用说明，会发现：

/S 显示指定目录和所有子目录中的文件。
/B 使用空格式(没有标题信息或摘要)。
/A 显示具有指定属性的文件 - 表示“否”的前缀

因此，命令【dir /s /B /A-D】即为显示目录下所有的文件，显示格式是文件绝对路径为一行。
面对windows下大文件夹，推荐使用该方案，缺点就是内存占用较大。经检验，面对7W个文件，遍历时间为20min，相对于其他方法，速度提升4倍。面对小文件夹，请弃用，因为这里起个进程都需要时间啦。

【线程池】

如果单机性能够强大，请考虑……
等等，还是不要考虑了。线程池，最严重的问题在于阻塞，这里是相当耗时间的。

def list_dir(directory):
    dirlist = []
    filelist = []

    try:
        for item in os.listdir(directory):
            path = os.path.join(directory,item)
            if os.path.isfile(path):
                filelist.append(path)
            else:
                dirlist.append(path)
    except:
        pass

    return (dirlist,filelist)


class ListWorker(threading.Thread):
    def __init__(self,requestQueue,resultlist):
        threading.Thread.__init__(self)
        self.request_queue = requestQueue
        self.result_list = resultlist
        self.setDaemon(True) 
        self.start()

    def run(self):
        while True:
            try:
                callback,args = self.request_queue.get(block=True,timeout=0.01)
            except Queue.Empty:
                break

            dirlist,filelist = callback(args[0])

            self.request_queue.task_done()#通知系统任务完成

            for item in dirlist:
                self.request_queue.put((callback,(item,)))
            self.result_list += filelist

class ListManager(object):
    def __init__(self,request_queue,threadnum=9):
        self.request_queue = request_queue
        self.result_list = []
        self.threads = []
        self.__init_thread_pool(threadnum)

    def __init_thread_pool(self,threadnum):
        for i in xrange(threadnum):
            self.threads.append(ListWorker(self.request_queue,self.result_list))

    def add_job(self,callback,*args):
        self.request_queue.put((callback,args))

    def complete_all(self):
        while len(self.threads):
            worker = self.threads.pop()
            worker.join()

最后，简单地对比一下他们的速度

    path = ur'D:\working'
    t = time.time()
    list_manager = ListManager(Queue.Queue(-1))
    list_manager.add_job(list_dir,path)
    list_manager.complete_all()
    print len(list_manager.result_list)
    t2 = time.time()
    print t2 -t
    print len(list(IterateFiles_CMD(path)))
    t3 = time.time() 
    print t3 -t2
    print len(list(IterateFiles(path)))
    t4 = time.time()
    print t4-t3
    print len(IterateFile_Recursion(path))
    t5 = time.time()
    print t5-t4