做深度学习图像分类拿到新的数据集不可避免的要对图片进行批量数理,以下整理的了我的思路,供大家参考。主要用到了os库,re库
原始数据展示:可看到不同鸟种所在文件夹名与图片名毫无规律,不便于后期数据集的加载与处理。
这段代码包含了两层循环:第一层对原文件夹名提取中文字符,即鸟类名字,然后对所有文件夹标上种类编号。
第二层循环就是对每一个文件夹下的图片进行规范命名,“格式为:rgb-序号-种类编号.JPG”
import os
import re
path="D:\\深度学习数据\\bird2.0"
filelist = os.listdir(path)
for i,file in enumerate(filelist): #遍历所有文件夹
data = re.sub("[A-Za-z0-9\!\%\[\]\,\。\ ]", "", file) #提取中文字符
src=os.path.join(path,file)
dst = os.path.join(os.path.abspath(path), format(str(i+1), '0>3s')+data ) #format对字符串格式化(宽度为3位,不够以数字0填充)
os.rename(src,dst) #对文件夹进行命名规范化
for j,image in enumerate(os.listdir(dst)): #遍历该文件夹里的所有图片
src_image=os.path.join(os.path.abspath(dst),image)
if image[-3:] in ["bat"]:
os.remove(src_image) #针对自己的数据集,删除不需要的信息
else:
dst_image = os.path.join(os.path.abspath(dst), "rgb-" +format(str(j+1), '0>3s')+ "-" +format(str(i+1), '0>3s')+".JPG")#对图片进行命名规范化
os.rename(src_image,dst_image)
结果:
大量的图片,十几行代码搞定所有图片的命名问题,python也太强大了!
后来发现类别放在前面更好,呜呜呜,再来一遍…
import os
import re
path="D:\\深度学习数据\\images"
filelist = os.listdir(path)
for i,file in enumerate(filelist): #遍历所有文件夹
#data = re.sub("[A-Za-z0-9\!\%\[\]\,\。\ ]", "", file) #提取中文字符
src=os.path.join(path,file)
dst = os.path.join(os.path.abspath(path), format(str(i+1), '0>3s') ) #format对字符串格式化(宽度为3位,不够以数字0填充)
os.rename(src,dst) #对文件夹进行命名规范化
for j,image in enumerate(os.listdir(dst)): #遍历该文件夹里的所有图片
src_image=os.path.join(os.path.abspath(dst),image)
dst_image = os.path.join(os.path.abspath(dst), "rgb-" +format(str(i+1), '0>3s')+"-"+format(str(j+1), '0>3s')+".JPG")#对图片进行命名规范化
os.rename(src_image,dst_image)
结果: