百度松果菁英班——机器学习实践一:海量文件遍历

本文介绍了如何在Python中使用`unzip_data`函数解压缩ZIP文件,并通过`get_size_type`函数统计指定目录下不同文件类型的数量和总内存占用。同时提到作者对于机器学习的初学者身份,欢迎读者参与讨论和学习百度松果菁英班的机器学习内容。
摘要由CSDN通过智能技术生成

飞桨AI Studio星河社区-人工智能学习与实训社区

🦐在指定目录下显示目录结构

!tree -L 显示级数限制 指定目录

如:

!tree -L 3 ./data/

表示:在目录 ./data/ 下显示目录结构,限制显示到第三级子目录或文件。这个命令通常在命令行环境(即shell)下使用,用于查看目录结构,以便更好地了解目录中包含的文件和子目录。

🦐将指定路径下的ZIP文件解压缩到目标路径下(unzip_data)

import zipfile 
def unzip_data(src_path,target_path):
    # 解压原始数据集,将src_path路径下的zip包解压至target_path目录下
    if(not os.path.isdir(target_path)):     
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(path=target_path)
        z.close()
​
unzip_data('data/data19638/insects.zip','data/data19638/insects')
unzip_data('data/data55217/Zebra.zip','data/data55217/Zebra')
  • 导入zipfile模块,提供对zip文件的读取和解压缩功能

  • 定义了一个叫unzip_data的函数

    • 参数src_path:指定要解压的zip文件的路径

    • 参数target_path:指定要将解压后的文件放置到的目标路径

    • 函数内部

      • 首先通过os.path.isdir(target_path)检查目标路径是否存在,如果不存在,则创建目标路径

      • 然后使用zipfile.ZipFile(src_path, 'r')打开指定路径下的ZIP文件,使用读模式

      • 调用z.extractall(path=target_path)方法将ZIP文件解压缩到目标路径下

      • 最后使用z.close()关闭ZIP文件对象,释放资源

解压缩后调用tree指令查看结果:

🦐统计给定目录下所有不同文件类型的文件数量以及它们的总内存占用量(get_size_type)

import os
 
"""
通过给定目录,统计所有的不同子文件类型及占用内存
"""
size_dict = {}
type_dict = {}
def get_size_type(path):
    
    files = os.listdir(path)
    for filename in files:
        temp_path = os.path.join(path, filename)
        if os.path.isdir(temp_path):#是文件夹
            # 递归调用函数,实现深度文件名解析
            get_size_type(temp_path)     
        elif os.path.isfile(temp_path):#是文件
            # 获取文件后缀
            type_name=os.path.splitext(temp_path)[1]   
            #无后缀名的文件
            if not type_name:
                type_dict.setdefault("None", 0)
                type_dict["None"] += 1
                size_dict.setdefault("None", 0)
                size_dict["None"] += os.path.getsize(temp_path)
            # 有后缀的文件
            else:
                type_dict.setdefault(type_name, 0)
                type_dict[type_name] += 1
                size_dict.setdefault(type_name, 0)
                # 获取文件大小
                size_dict[type_name] += os.path.getsize(temp_path) 
  • 定义了两个空字典size_dicttype_dict,用于分别记录不同文件类型的内存占用和数量

  • 定义了一个函数get_size_type(path),该函数接受一个参数path,表示要统计的目录路径

    • 使用os.listdir(path)获取指定路径下的所有文件和文件夹列表

    • 遍历列表中的每个文件和文件夹,使用os.path.join(path, filename)构建完整的文件路径

    • 如果是文件夹,则递归调用get_size_type(temp_path)来处理子文件夹

    • 如果是文件,则获取其文件后缀名,并根据是否有后缀名进行处理:

      • 如果没有后缀名,则将其归类为"None"类型,并更新对应的数量和占用内存大小

      • 如果有后缀名,则将其归类到对应的后缀名类型,并更新对应的数量和占用内存大小

统计完成后,size_dicttype_dict分别记录了不同文件类型的总内存占用和数量

🦐应用

path= "data/"
get_size_type(path)
for each_type in type_dict.keys():
    print ("%5s下共有【%5s】的文件【%5d】个,占用内存【%7.2f】MB" %     
            (path,each_type,type_dict[each_type],\
            size_dict[each_type]/(1024*1024)))
print("总文件数:  【%d】"%(sum(type_dict.values())))
print("总内存大小:【%.2f】GB"%(sum(size_dict.values())/(1024**3)))
  • 设置要统计的目录路径

  • 调用get_size_type函数,统计该目录下所有不同文件类型的文件数量以及它们的总内存占用量

  • 使用for循环遍历type_dict字典中的每个键(即文件类型),并打印出文件类型、文件数量以及占用内存大小的信息

  • 通过sum(type_dict.values())统计所有文件的总数,通过sum(size_dict.values())统计所有文件的总内存占用量

  • 将结果打印出来,其中内存大小单位转换为GB

机器学习还有python我接触的有点少,对我来说还是有难度的,如果有问题欢迎大家的指正,欢迎大家和我一起学习百度松果菁英班的机器学习内容,有问题我们随时评论区见~

⭐点赞收藏不迷路~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值