python海量文件遍历 AI Studio

python将数据集解压到目标文件

import os
import zipfile

def un_zip(src_path, target_path):
    if not os.path.isdir(target_path):
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(target_path)
        z.close()

统计文件大小和类型

size_dict={}
type_dict={}

def get_size_type(path):
    files = os.listdir(path)
    for filename in files:                        #从文件中查找文件名
        temp_path = os.path.join(path, filename)  #join函数会把各个文件路径按一定的格式排列
        if os.path.isdir(temp_path):              #如果文件是一个文件夹,采用递归调用,再次解开
            get_size_type(temp_path)
        elif os.path.isfile(temp_path):           #如果不是,splitext函数会把文件名分为前缀和后缀两部分,
            type_name = os.path.splitext(temp_path)[1]   #利用后缀可以判断文件类型
            if not type_name:                     #如果没有后缀,返回None
                type_dict.setdefault("None", 0)
                type_dict["None"]+=1              #统计个数
                size_dict.setdefault("None", 0)
                size_dict["None"]+=os.path.getsize(temp_path)  #统计大小
            else:
                type_dict.setdefault(type_name,0)
                type_dict[type_name]+=1
                size_dict.setdefault(type_name,0)
                type_dict[type_name]+=os.path.getsize(temp_path)

 调用函数

path = "data/"
get_size_type(path)
for each_type in type_dict.keys():
    print("%5s下共有[%5s]的文件[%5d]个,占用内存[%7.2f]MB"%
    (path, each_type, type_dict[each_type],\
    size_dict[each_type]/(1024*1024)))
    
print("总文件数:[%d]"%(sum(type_dict.values())))
print("总占用内存:[%.2f]GB"%(sum(size_dict.values())/(1024**3)))

输出结果:

data/下共有[ .jpg]的文件[ 2400]个,占用内存[ 207.66]MB
data/下共有[ .zip]的文件[    2]个,占用内存[ 205.80]MB
data/下共有[ .txt]的文件[    1]个,占用内存[   0.11]MB
总文件数:[2403]
总占用内存:[0.40]GB

需要关注的点:

type_dict[each_type]  #返回的是值each_type对应的值

#在字典中的存储方式:  each_type : values

os.path.join()用法:

print(os.path.join('aaa', 'ccc.txt'))

 输出结果:

aaa/ccc.txt

os.path.join()会把字符串连接起来,代码中连接的目的是,使temp_path可以是一个路径,因为lisdir(path)返回的是目录下的文件名,而不含该目录,会造成路径无法找到。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值