数据集划分——训练集、测试集、验证集按照7:1:2

最新推荐文章于 2025-04-08 10:08:17 发布

jinzi_a

最新推荐文章于 2025-04-08 10:08:17 发布

阅读量8.2k

点赞数 5

文章标签： python 计算机视觉

本文链接：https://blog.csdn.net/jinzi_a/article/details/115199187

版权

本文介绍了如何按照7:1:2的比例划分数据集，用于训练集、测试集和验证集。内容涉及对乳腺超声图像数据库的数据增强，以及后续的数据划分步骤，确保模型的训练和评估效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据集划分——训练集、测试集、验证集按照7:1:2

前面我对乳腺超声图像数据库进行数据增强，得到：
在这里插入图片描述
然后对数据集进行划分，按照训练集、测试集、验证集7:1：2的比例。
代码：

import os
import random
import shutil
from shutil import copy2

"""os.listdir会将文件夹下的文件名集合成一个列表并返回"""


def getDir(filepath):
    pathlist = os.listdir(filepath)
    return pathlist


"""制作五类图像总的训练集，验证集和测试集所需要的文件夹，例如训练集的文件夹中装有五个文件夹，这些文件夹分别装有一定比例的五类图像"""


def mkTotalDir(data_path):
    os.makedirs(data_path)
    dic = ['train', 'val', 'test']
    for i in range(0, 3):
        current_path = data_path + dic[i] + '/'
        # 这个函数用来判断当前路径是否存在，如果存在则创建失败，如果不存在则可以成功创建
        isExists = os.path.exists(current_path)
        if not isExists:
            os.makedirs(current_path)
            print('successful ' + dic