python将数据集解压到目标文件
import os
import zipfile
def un_zip(src_path, target_path):
if not os.path.isdir(target_path):
z = zipfile.ZipFile(src_path, 'r')
z.extractall(target_path)
z.close()
统计文件大小和类型
size_dict={}
type_dict={}
def get_size_type(path):
files = os.listdir(path)
for filename in files: #从文件中查找文件名
temp_path = os.path.join(path, filename) #join函数会把各个文件路径按一定的格式排列
if os.path.isdir(temp_path): #如果文件是一个文件夹,采用递归调用,再次解开
get_size_type(temp_path)
elif os.path.isfile(temp_path): #如果不是,splitext函数会把文件名分为前缀和后缀两部分,
type_name = os.path.splitext(temp_path)[1] #利用后缀可以判断文件类型
if not type_name: #如果没有后缀,返回None
type_dict.setdefault("None", 0)
type_dict["None"]+=1 #统计个数
size_dict.setdefault("None", 0)
size_dict["None"]+=os.path.getsize(temp_path) #统计大小
else:
type_dict.setdefault(type_name,0)
type_dict[type_name]+=1
size_dict.setdefault(type_name,0)
type_dict[type_name]+=os.path.getsize(temp_path)
调用函数
path = "data/"
get_size_type(path)
for each_type in type_dict.keys():
print("%5s下共有[%5s]的文件[%5d]个,占用内存[%7.2f]MB"%
(path, each_type, type_dict[each_type],\
size_dict[each_type]/(1024*1024)))
print("总文件数:[%d]"%(sum(type_dict.values())))
print("总占用内存:[%.2f]GB"%(sum(size_dict.values())/(1024**3)))
输出结果:
data/下共有[ .jpg]的文件[ 2400]个,占用内存[ 207.66]MB data/下共有[ .zip]的文件[ 2]个,占用内存[ 205.80]MB data/下共有[ .txt]的文件[ 1]个,占用内存[ 0.11]MB 总文件数:[2403] 总占用内存:[0.40]GB
需要关注的点:
type_dict[each_type] #返回的是值each_type对应的值
#在字典中的存储方式: each_type : values
os.path.join()用法:
print(os.path.join('aaa', 'ccc.txt'))
输出结果:
aaa/ccc.txt
os.path.join()会把字符串连接起来,代码中连接的目的是,使temp_path可以是一个路径,因为lisdir(path)返回的是目录下的文件名,而不含该目录,会造成路径无法找到。