解决任何真实问题的重要一步是获取数据,Kaggle提供了大量不同数据科学问题的竞赛。
我们将从
https://www.kaggle.com/competitions/dogs-vs-cats/data
下载猫狗数据集,并对其进行一定的操作,以正确的导入到我们的计算机,为接下来的模型训练做准备。
数据集(带有标号的)包含25000张图片,猫狗各一半,图片格式如下:
类别.序号.jpg,比如
-
cat.1.jpg,cat.2.jpg,cat.3.jpg,....cat.12449.jpg
-
dog.1.jpg,dog.2.jpg,dog.3.jpg,.....dog.12499.jpg
共计25000张。
直接将其导入计算机显然是不行的,我们必须对图片名进行处理,接着构建自己的Dataset类。
首先对图片名进行处理:
import os
path="E: