优化大目录文件列表函数-CSDN博客

本文链接：https://blog.csdn.net/Leon_Jinhai_Sun/article/details/147145119

优化大目录文件列表函数

对于处理500多万文件的目录，原始代码确实会非常耗时。以下是优化方案：

主要优化点

使用多线程/多进程：并行处理文件统计
减少系统调用：合并必要的信息获取
使用生成器：避免内存爆炸
错误处理优化：减少异常处理开销

优化后的代码

import os
from typing import List, Tuple, Generator
import concurrent.futures
from functools import partial

def list_files_with_metadata_optimized(
    directory: str, 
    max_workers: int = os.cpu_count() * 2
) -> Generator[Tuple[str, float, int], None, None]:
    """
    优化的文件列表生成器，支持大目录(500万+文件)
    
    参数:
        directory: 要扫描的目录路径
        max_workers: 并行工作线程数，默认CPU核心数*2
        
    返回:
        生成器，每次产生 (文件路径, 修改时间, 文件大小) 的元组
    """
    # 先收集所有文件路径，避免在并行处理中重复walk
    file_paths = []
    for root, _, files in os.walk(directory):
        for file in files:
            file_paths.append(os.path.join(root, file))
    
    # 处理单个文件的统计
    def _process_file(file_path: str) -> Tuple[str, float, int] | None:
        try:
            stat = os.stat(file_path, follow_symlinks=False)
            return (file_path, stat.st_mtime, stat.st_size)
        except (OSError, PermissionError):
            return None
    
    # 使用线程池并行处理
    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        for result in executor.map(_process_file, file_paths):
            if result is not None:
                yield result

# 使用示例
# for file_info in list_files_with_metadata_optimized("/large_directory"):
#     print(file_info)

进一步优化的可选方案

如果上述方案仍然不够快，可以考虑：

使用C扩展：用Cython或直接写C扩展来加速
使用更高效的系统调用：如scandir(Python 3.5+内置)
分批处理：对超大规模目录分批次处理

使用scandir的版本(Python 3.5+)

import os
from typing import List, Tuple, Generator
from os import scandir

def list_files_with_metadata_scandir(
    directory: str
) -> Generator[Tuple[str, float, int], None, None]:
    """
    使用scandir的更高效实现(scandir比walk更节省系统调用)
    """
    for entry in scandir(directory):
        if entry.is_file(follow_symlinks=False):
            try:
                yield (entry.path, entry.stat().st_mtime, entry.stat().st_size)
            except OSError:
                continue
        elif entry.is_dir(follow_symlinks=False):
            yield from list_files_with_metadata_scandir(entry.path)