文章目录
一、数据集处理
1、下载数据集
尽可能的寻找更多苹果,香蕉,杨桃的图片,作为本次的数据集。
2、统一数据集格式
利用代码统一图片大小和文件格式
统一图片名称,对应种类图片用 名称+下划线+编号 ,便于为图片加上标签
# 统一图片格式
fileList = os.listdir(r"C:\Users\cx\Desktop\work\machine_learning\knn\fruit\carambola")
# 输出此文件夹中包含的文件名称
print("修改前:" + str(fileList)[1])
# 得到进程当前工作目录
currentpath = os.getcwd()
# 将当前工作目录修改为待修改文件夹的位置
os.chdir(r"C:\Users\cx\Desktop\work\machine_learning\knn\fruit\carambola")
# 名称变量
num = 1
# 遍历文件夹中所有文件
for fileName in fileList:
# 匹配文件名正则表达式
pat = ".+\ .(jpg|jpeg|JPG)"
# 进行匹配
pattern = re.findall(pat, fileName)
# 文件重新命名
os.rename(fileName, "carambola_" + str(num) + ".jpg")
# fileName.resize(256, 256)
# 改变编号,继续下一项
num = num + 1
print("***************************************")
# 改回程序运行前的工作目录
# os.chdir(currentpath)
# 刷新
sys.stdin.flush()
# 输出修改后文件夹中包含的文件名称
print("修改后:" + str(os.listdir(r"C:\Users\cx\Desktop\work\machine_learning\knn\fruit\carambola"))[1])
统一文件大小
from PIL import Image
import os
import glob
# 修改图片文件大小
# filename:图片文件名
# outdir:修改后要保存的路径
def convertImgSize(filename, outdir, width=256, height=256):
img = Image.open(filename)
try:
new = img.resize((width, height)