制作自己的数据集

最新推荐文章于 2024-05-26 16:30:58 发布

望长安于日下

最新推荐文章于 2024-05-26 16:30:58 发布

阅读量2.1k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_26884501/article/details/115566314

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

文章目录

1. Pascal VOC数据讲解
2. 制作自己的数据集
- 2.1. 创建类别文件
- 2.2. 运行程序
3. 分类数据划分脚本

1. Pascal VOC数据讲解

Pascal VOC官方数据
在这里插入图片描述

在这里插入图片描述
train.txt文件中所有的文件信息，通过信息到annnotation中寻找他的图像的标注信息（高度、宽度、图像中的目标分类），然后找到jpgImages文件中查找该文件，并将文件加载入内存中

2. 制作自己的数据集

制作标签的软件

2.1. 创建类别文件

在这里插入图片描述
只需要图像文件夹，类别文件，和annotations文件夹即可，生成的标签好的信息xml文件会自动生成在文件中

2.2. 运行程序

在这里插入图片描述

3. 分类数据划分脚本

以划分花的数据集为例

import os
from shutil import copy, rmtree
import random


def mk_file(file_path: str):
    if os.path.exists(file_path):
        # 如果文件夹存在，则先删除原文件夹在重新创建
        rmtree(file_path)
    os.makedirs(file_path)


def main():
    # 保证随机可复现
    random.seed(0)

    # 将数据集中10%的数据划分到验证集中
    split_rate = 0.1

    # 指向你解压后的flower_photos文件夹
    cwd = os.getcwd()
    data_root = os.path.join(cwd, "flower_data")
    origin_flower_path = os.path.join(data_root, "flower_photos")
    assert os.path.exists(origin_flower_path)
    flower_class = [cla for cla in os.listdir(origin_flower_path)
                    if os.path.isdir(os.path.join(origin_flower_path, cla))]

    # 建立保存训练集的文件夹
    train_root = os.path.join(data_root, "train")
    mk_file(train_root)
    for cla in flower_class:
        # 建立每个类别对应的文件夹
        mk_file(os.path.join(train_root, cla))

    # 建立保存验证集的文件夹
    val_root = os.path.join(data_root, "val")
    mk_file(val_root)
    for cla in flower_class:
        # 建立每个类别对应的文件夹
        mk_file(os.path.join(val_root, cla))

    for cla in flower_class:
        cla_path = os.path.join(origin_flower_path, cla)
        images = os.listdir(cla_path)
        num = len(images)
        # 随机采样验证集的索引
        eval_index = random.sample(images, k=int(num*split_rate))
        for index, image in enumerate(images):
            if image in eval_index:
                # 将分配至验证集中的文件复制到相应目录
                image_path = os.path.join(cla_path, image)
                new_path = os.path.join(val_root, cla)
                copy(image_path, new_path)
            else:
                # 将分配至训练集中的文件复制到相应目录
                image_path = os.path.join(cla_path, image)
                new_path = os.path.join(train_root, cla)
                copy(image_path, new_path)
            print("\r[{}] processing [{}/{}]".format(cla, index+1, num), end="")  # processing bar
        print()

    print("processing done!")


if __name__ == '__main__':
    main()

数据集文件结构

[root@ip-172-31-2-172 flower_photos]# tree . -L 1
.
├── daisy
├── dandelion
├── LICENSE.txt
├── roses
├── sunflowers
└── tulips

望长安于日下

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
制作自己的数据集

文章目录1. Pascal VOC数据讲解2. 制作自己的数据集2.1. 创建类别文件2.2. 运行程序1. Pascal VOC数据讲解Pascal VOC官方数据train.txt文件中所有的文件信息，通过信息到annnotation中寻找他的图像的标注信息（高度、宽度、图像中的目标分类），然后找到jpgImages文件中查找该文件，并将文件加载入内存中2. 制作自己的数据集制作标签的软件2.1. 创建类别文件只需要图像文件夹，类别文件，和annotations文件夹即可，生成的标签
复制链接

扫一扫

专栏目录