python 自然语言|| 海量文件遍历(代码存储区)

学习海量文件遍历后
自己的编译器竟然不可以编译
是在notebook & AI stdio 下可执行的

!tree -L 3 ./data/
#显示tree
import zipfile
import os
def unzip_data(src_path, target_path):
    #判断是否是压缩包
    if not os.path.isdir(target_path):
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(path = target_path)
        z.close()
unzip_data('data/data90405/Zebra.zip', 'data/data90405/zebra')
unzip_data('data/data19748/insects.zip', 'data/data19748/insects')


size_dict = {} #文件大小
type_dict = {} #文件数量
def get_size_type(path):
    files = os.listdir(path) #获取目录下文件名
    for filename in files:
        temp_path = os.path.join(path, filename) #拼接完整url
        if os.path.isdir(temp_path):
            get_size_type(temp_path) #递归调用
        elif os.path.isfile(temp_path):
            type_name = os.path.splitext(temp_path)[1] #将文件名与后缀分开
            if not type_name:
                type_name = "None"
            type_dict.setdefault(type_name, 0)
            type_dict[type_name]+=1
            size_dict.setdefault(type_name, 0)
            size_dict[type_name]+=os.path.getsize(temp_path)

path = 'data/'
get_size_type(path)
for each_type in type_dict.keys():
    print('%5s 下共有[%5s]的文件共[%5d],  占用内存[%7.2f]MB'%
        (path, each_type, type_dict[each_type], size_dict[each_type]/1024**2))
print('文件总数: [%d]'%sum(type_dict.values()))
print('文件占用内存: [%7.2f]GB'%(sum(size_dict.values())/1024**3))
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值