Python实现海量文件遍历

最新推荐文章于 2024-07-14 22:18:32 发布

褪色的博客

最新推荐文章于 2024-07-14 22:18:32 发布

阅读量829

点赞数

分类专栏：数据挖掘机器学习文章标签： python

本文链接：https://blog.csdn.net/qq_37055672/article/details/124782786

版权

数据挖掘同时被 2 个专栏收录

11 篇文章 3 订阅

订阅专栏

机器学习

8 篇文章 3 订阅

订阅专栏

Python实现海量文件遍历

使用Python实现对一个目录下所有文件的遍历，并统计出不同类型文件的数目；
这个技巧对与海量的数据分析有很大的帮助，可以预先通过该技巧得到文件的大致类别和数量，对随后做数据预处理提供支持；

定义一个解压函数，用于解压文件

#src_path 需要解压的文件的文件地址
#target_path 目标地址，即解压到哪里
import zipfile
def unzip_data(src_path,target_path):
    # 解压原始数据集，将src_path路径下的zip包解压至target_path目录下
    if(not os.path.isdir(target_path)):     
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(path=target_path)
        z.close()

调用解压函数，解压文件

unzip_data('data/data19638/insects.zip','data/data19638/insects')
unzip_data('data/data55217/Zebra.zip','data/data55217/Zebra')

定义一个函数，通过给定目录，统计所有的不同子文件类型及占用内存

import os
"""
通过给定目录，统计所有的不同子文件类型及占用内存
"""
size_dict = {}
type_dict = {}
def get_size_type(path):
    files = os.listdir(path)
    for filename in files:
        temp_path = os.path.join(path, filename)
        if os.path.isdir(temp_path):
            # 递归调用函数，实现深度文件名解析
            get_size_type(temp_path)     
        elif os.path.isfile(temp_path):
            # 获取文件后缀
            type_name=os.path.splitext(temp_path)[1]   
            #无后缀名的文件
            if not type_name:
                type_dict.setdefault("None", 0)
                type_dict["None"] += 1
                size_dict.setdefault("None", 0)
                size_dict["None"] += os.path.getsize(temp_path)
            # 有后缀的文件
            else:
                type_dict.setdefault(type_name, 0)
                type_dict[type_name] += 1
                size_dict.setdefault(type_name, 0)
                # 获取文件大小
                size_dict[type_name] += os.path.getsize(temp_path)

调用，打印输出结果

path= "data/"
get_size_type(path)
for each_type in type_dict.keys():
    print ("%5s下共有【%5s】的文件【%5d】个,占用内存【%7.2f】MB" %     
            (path,each_type,type_dict[each_type],\
            size_dict[each_type]/(1024*1024)))
print("总文件数:  【%d】"%(sum(type_dict.values())))
print("总内存大小:【%.2f】GB"%(sum(size_dict.values())/(1024**3)))