python海量文件遍历 AI Studio

Elvin域文

已于 2022-03-30 20:28:54 修改

阅读量492

点赞数

分类专栏： Baidu Paddle 文章标签： python 开发语言后端

于 2022-03-04 20:35:17 首次发布

本文链接：https://blog.csdn.net/m0_51787573/article/details/123284104

版权

Baidu Paddle 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

python将数据集解压到目标文件

import os
import zipfile

def un_zip(src_path, target_path):
    if not os.path.isdir(target_path):
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(target_path)
        z.close()

统计文件大小和类型

size_dict={}
type_dict={}

def get_size_type(path):
    files = os.listdir(path)
    for filename in files:                        #从文件中查找文件名
        temp_path = os.path.join(path, filename)  #join函数会把各个文件路径按一定的格式排列
        if os.path.isdir(temp_path):              #如果文件是一个文件夹，采用递归调用，再次解开
            get_size_type(temp_path)
        elif os.path.isfile(temp_path):           #如果不是，splitext函数会把文件名分为前缀和后缀两部分，
            type_name = os.path.splitext(temp_path)[1]   #利用后缀可以判断文件类型
            if not type_name:                     #如果没有后缀，返回None
                type_dict.setdefault("None", 0)
                type_dict["None"]+=1              #统计个数
                size_dict.setdefault("None", 0)
                size_dict["None"]+=os.path.getsize(temp_path)  #统计大小
            else:
                type_dict.setdefault(type_name,0)
                type_dict[type_name]+=1
                size_dict.setdefault(type_name,0)
                type_dict[type_name]+=os.path.getsize(temp_path)

调用函数

path = "data/"
get_size_type(path)
for each_type in type_dict.keys():
    print("%5s下共有[%5s]的文件[%5d]个,占用内存[%7.2f]MB"%
    (path, each_type, type_dict[each_type],\
    size_dict[each_type]/(1024*1024)))
    
print("总文件数：[%d]"%(sum(type_dict.values())))
print("总占用内存：[%.2f]GB"%(sum(size_dict.values())/(1024**3)))

输出结果：

data/下共有[ .jpg]的文件[ 2400]个,占用内存[ 207.66]MB
data/下共有[ .zip]的文件[    2]个,占用内存[ 205.80]MB
data/下共有[ .txt]的文件[    1]个,占用内存[   0.11]MB
总文件数：[2403]
总占用内存：[0.40]GB

需要关注的点：

type_dict[each_type]  #返回的是值each_type对应的值

#在字典中的存储方式：  each_type : values

os.path.join()用法：

print(os.path.join('aaa', 'ccc.txt'))

输出结果：

aaa/ccc.txt

os.path.join()会把字符串连接起来，代码中连接的目的是，使temp_path可以是一个路径，因为lisdir（path）返回的是目录下的文件名，而不含该目录，会造成路径无法找到。

Elvin域文

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python海量文件遍历 AI Studio

python zipfileThe ZIP file format is a common archive（文档/档案） and compression（压缩） standard. This module provides tools to create, read, write, append, and list a ZIP file.想进一步了解可以点击链接查看zipfile — Work with ZIP archives — Python 3.10.2 documentationhttp
复制链接

扫一扫

专栏目录