机器学习一：海量文件的遍历

mengxinmengxin12

于 2023-01-06 22:44:53 发布

阅读量242

点赞数 3

分类专栏：机器学习文章标签： python Powered by 金山文档

本文链接：https://blog.csdn.net/mengxinmengxin12/article/details/128571101

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一：将文件解压缩

import zipfile
import os
def unzip_data(src_path,target_path):
    # 解压原始数据集，将src_path路径下的zip包解压至target_path目录下
    if(not os.path.isdir(target_path)):     #排除解压缩的文件是目录的可能
        z = zipfile.ZipFile(src_path, 'r')
        z.extractall(path=target_path)
        z.close()

unzip_data('data/data10954/cat_12_test.zip','data/data19638/insects')
unzip_data('data/data10954/cat_12_train.zip','data/data55217/Zebra')

- os

（1）os.path.isdir--------判断路径是否为目录

os常用的函数（1）常用os函数（2）----同时插入两个链接关于os常用函数的介绍，两个结合看，足够具体了

- zipfile

具体参考下面的链接，上述的步骤就是一个解压的步骤

zipfile的函数

同时附上Python解压缩文件的链接

用Python解压缩文件

二：遍历文件

import os
 
"""
通过给定目录，统计所有的不同子文件类型及占用内存
"""
size_dict = {}#文件内存
type_dict = {}#文件大小
def get_size_type(path):
    
    files = os.listdir(path)#列出路径下的所有文件
    for filename in files:
        temp_path = os.path.join(path, filename)
        if os.path.isdir(temp_path):
            # 递归调用函数，实现深度文件名解析
            get_size_type(temp_path)     
        elif os.path.isfile(temp_path):
            # 获取文件后缀
            type_name=os.path.splitext(temp_path)[1]   
            #无后缀名的文件
            if not type_name:
                type_dict.setdefault("None", 0)#看是否存在None值存在则还是原来的值，不存在则值为0
                type_dict["None"] += 1
                size_dict.setdefault("None", 0)
                size_dict["None"] += os.path.getsize(temp_path)
            # 有后缀的文件
            else:
                type_dict.setdefault(type_name, 0)
                type_dict[type_name] += 1
                size_dict.setdefault(type_name, 0)
                # 获取文件大小
                size_dict[type_name] += os.path.getsize(temp_path)  
get_size_type('data')
print(size_dict)
print(type_dict)

- dict.setdefault的用法

实例：

dict ={'name':'⼩明'，'sex':'男'}
print "Value :%s" % dict.setdefault('name','⽆') #存在键name
#Value :⼩明
 print "Value :%s" % dict.setdefault('age','0')#不存在键age
#Value :0
 dict
#{'age': '0', 'name': '小明', 'sex': '男'}#age加了进去，字典是⽆序的。

- os.listdir

实例：

import os
print(os.listdir('data/data10954'))#会列出它的下一级的目录,同时路径必须是一个目录
#['cat_12_train.zip', 'train_list.txt', 'cat_12_test.zip']

- os.path.splitext(path):

分割路径，返回路径名和文件扩展名的元组

实例：

import os
print(os.path.splitext('data/data10954/train_list.txt'))
print(os.path.splitext('data/data10954/train_list.txt')[-1])
print(os.path.splitext('data/data10954/train_list.txt')[0])
#('data/data10954/train_list', '.txt')
#.txt
#data/data10954/train_list

- os.path.join(path1[,path2,path3])

把目录和文件名合成一个路径,1.如果各组件名首字母不包含’/’，则函数会自动加上,2.如果有一个组件是一个绝对路径，则在它之前的所有组件均会被舍弃,3.如果最后一个组件为空，则生成的路径以一个’/’分隔符结尾

实例：

os.path.join('C:/Users','wuzhengxiang/Desktop/','股票数据分析')
#'C:/Users\\wuzhengxiang/Desktop/股票数据分析'
Path1 = 'home'
Path2 = 'develop'
Path3 = 'code'
Path10 = Path1 + Path2 + Path3
Path20 = os.path.join(Path1,Path2,Path3)
print ('Path10 = ',Path10)
print ('Path20 = ',Path20)
#Path10 = homedevelopcode
#Path20 = home\develop\code

- os.path.getsize(path)

返回文件大小，切记是文件

print(os.path.getsize('data/data10954'))
print(os.path.getsize('data/data10954/cat_12_test.zip'))#是一个目录，因此返回的是属性的大小
print(os.path.getsize('data/data10954/cat_12_train.zip'))
print(os.path.getsize('data/data10954/train_list.txt'))
#4096
#21487236
#194314834
#114840

三：输出

path= "data/"
get_size_type(path)
for each_type in type_dict.keys():
    print ("%5s下共有【%5s】的文件【%5d】个,占用内存【%7.2f】MB" %     
            (path,each_type,type_dict[each_type],\
            size_dict[each_type]/(1024*1024)))
print("总文件数:  【%d】"%(sum(type_dict.values())))
print("总内存大小:【%.2f】GB"%(sum(size_dict.values())/(1024**3)))
"""
data/下共有【 .txt】的文件【    2】个,占用内存【   0.22】MB
data/下共有【 .zip】的文件【    4】个,占用内存【 411.61】MB
data/下共有【 .jpg】的文件【 4800】个,占用内存【 415.31】MB
总文件数:  【4806】
总内存大小:【0.81】GB

"""