无论是训练机器学习或是深度学习,第一步当然是先划分数据集啦,今天小白整理了一些划分数据集的方法,希望大佬们多多指教啊,嘻嘻~
首先看一下数据集的样子,flower_data文件夹下有四个文件夹,每个文件夹表示一种花的类别
划分数据集的主要步骤:
1. 定义一个空字典,用来存放各个类别的训练集、测试集和验证集,字典的key是类别,value也是一个字典,存放该类别的训练集、测试集和验证集;
2.使用python获取所有的类别文件夹;
3.对每个类别划分训练集、测试集和验证集:(1)把该类别的所有有效图片放入一个列表中;(2)设置一个随机数对列表进行划分。
具体的代码实现如下所示
import glob import os.path import random import numpy as np # 图片数据文件夹 INPUT_DATA = './flower_data' # 这个函数从数据文件夹中读取所有的图片列表并按训练、验证、测试数据分开 # testing_percentage和validation_percentage指定了测试数据集和验证数据集的大小