【导读:本文为照片分拣机器学习项目系列文章的第2篇,介绍如何读取不同文件夹下、不同大小的jpg格式图片,压缩至相同大小,创建csv分类数据集,用于后续分类模型的训练】
项目系列文章请查看:
机器学习项目之照片分拣01:项目概述
机器学习项目之照片分拣02:创建照片分类数据集(本文)
机器学习项目之照片分拣03:训练照片分类模型
机器学习项目之照片分拣04:预测新照片类别并分别存放
项目演示视频
要实现照片的预测和分拣,首先要构建一个打好标签的图片数据集,用来训练分类模型。本文介绍如何使用Python将收集的人物和花卉图片创建为csv格式的分类数据集。
一、基本思路
首先收集照片,将照片分类别保存在计算机硬盘上;分类别逐张读取图片,将它们压缩到相同形状;创建空的特征集和目标集列表;将压缩的每张图片展平为1行,添加到特征集的尾部,同时将图片的类标签添加到目标集的尾部;更新特征集的形状,使列数相同,行数等于所有图片数量;将特征集和目标集保存为csv数据文件。
二、收集图片
收集两种类别的图片(本项目方法可以扩充到更多类别):人物和花卉,图片为jpg格式,大小可以不同,如下图所示。