语义分割制作自己的数据集——训练集、验证集、测试集

用于语义分割的VOC数据集格式

语义分割任务voc数据集主要包括JPEGImages(存放原始图像),SegmentationClass(存放label),ImageSets/Segmentation(存放划分的数据集——包括train.txt、test.txt和val.txt三个文件)

将json文件夹中的原始图片和轮廓图片分别提取出来

import os 
import shutil

for dir_name in os.listdir('../data'): #返回指定路径下的文件和文件名列表,
                                                # os.listdir(path)中path是需要列出来的路径
    pic_name = dir_name[:-5] + '.png'
    from_dir = '../data/' + dir_name + '/label.png'  #img.png是原图;label.png是标签
    to_dir = './data/imgs/' + pic_name     #将img.png复制到imgs文件夹中;label.png存放在masks文件夹中
    shutil.copyfile(from_dir, to_dir)  #将from_dir路径下的文件label.png复制到to_dir中
                                        # 这里有两个含义:一是复制到该路径下;二是将名称设定为pic_name
        
    print (from_dir)
    print (to_dir)

划分数据集,生成txt文件

#生成txt文件
imagedir = './data/SegmentationClass/'
outdir = './data/ImageSets/Segmentation/'

images = []
for file in os.listdir(imagedir):
    filename = file.split('.')[0]
    images.append(filename)
# 训练集测试集验证集比例为:7:2:1
train, test = train_test_split(images, train_size=0.7, random_state=0)
val, test = train_test_split(test, train_size=0.2/0.3, random_state=0)

with open(outdir + os.sep +"train.txt", 'w') as f:
    f.write('\n'.join(train))

with open(outdir + os.sep +"val.txt", 'w') as f:
    f.write('\n'.join(val))

with open(outdir + os.sep +"test.txt", 'w') as f:
    f.write('\n'.join(test))

with open(outdir + os.sep +"trainval.txt", 'w') as f:
    f.write('\n'.join(images))

在这里插入图片描述
在这里插入图片描述

json_to_dataset.py

import numpy as np
import PIL.Image
from labelme import utils

if __name__ == '__main__':
    jpgs_path = "./JPEGImages"
    pngs_path = "./SegmentationClass"
    # classes = ["_background_", "aeroplane", "bicycle", "bird", "boat", "bottle", "bus", "car", "cat", "chair", "cow","diningtable", "dog", "horse", "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"]
    #classes这里自己指定类别,"_background_"作为第一个参数,其他类别有多少写多少(1+目标的数目)
    count = os.listdir("path1") #path1为数据所在文件路径
    for i in range(0, len(count)):
        path = os.path.join("path1", count[i]) 

        if os.path.isfile(path) and path.endswith('json'):
            data = json.load(open(path))

            if data['imageData']:
                imageData = data['imageData']
            else:
                imagePath = os.path.join(os.path.dirname(path), data['imagePath'])
                with open(imagePath, 'rb') as f:
                    imageData = f.read()
                    imageData = base64.b64encode(imageData).decode('utf-8')

            img = utils.img_b64_to_arr(imageData)
            label_name_to_value = {'_background_': 0}
            for shape in data['shapes']:
                label_name = shape['label']
                if label_name in label_name_to_value:
                    label_value = label_name_to_value[label_name]
                else:
                    label_value = len(label_name_to_value)
                    label_name_to_value[label_name] = label_value

            # label_values must be dense
            label_values, label_names = [], []
            for ln, lv in sorted(label_name_to_value.items(), key=lambda x: x[1]):
                label_values.append(lv)
                label_names.append(ln)
            assert label_values == list(range(len(label_values)))

            lbl = utils.shapes_to_label(img.shape, data['shapes'], label_name_to_value)

            PIL.Image.fromarray(img).save(osp.join(jpgs_path, count[i].split(".")[0] + '.jpg'))

            new = np.zeros([np.shape(img)[0], np.shape(img)[1]])
            for name in label_names:
                index_json = label_names.index(name)
                index_all = classes.index(name)
                new = new + index_all * (np.array(lbl) == index_json)

            utils.lblsave(osp.join(pngs_path, count[i].split(".")[0] + '.png'), new)
            print('Saved ' + count[i].split(".")[0] + '.jpg and ' + count[i].split(".")[0] + '.png')
    
  • 0
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
语义分割数据集的划分通常可以通过如下步骤实现: 1.将数据集中的每个图像及其对应的标签进行匹配,这可以通过读取图像及其对应的标签文件来实现。 2.将匹配后的图像及其标签文件分别存储到两个列表中,方便后续的处理。同时,为了确保训练、验证和测试集中的图像和标签能够一一对应,需要保证它们在两个列表中的顺序相同。 3.将存储有图像和标签的两个列表按照一定比例划分为训练集验证集测试集。这里需要注意的是,不同数据集的划分比例可能会有所不同,通常情况下,训练集占总数据集的70%~80%,验证集占10%~15%,测试集占10%~20%。 4.将划分后的训练、验证和测试集分别保存到不同的文件夹中,方便后续的读取和使用。 这里给出一个基于Python语言实现的语义分割数据集划分代码示例,供参考: ``` import os import random import shutil # 数据集所在目录 data_dir = '/path/to/dataset' # 划分比例 train_ratio = 0.8 val_ratio = 0.1 test_ratio = 0.1 # 图像和标签文件列表 images = [] labels = [] # 读取图像和标签文件 for file in os.listdir(data_dir): if file.endswith('.jpg'): images.append(os.path.join(data_dir, file)) elif file.endswith('.png'): labels.append(os.path.join(data_dir, file)) # 确保图像和标签文件数量相等 assert len(images) == len(labels) # 将图像和标签文件列表打乱 random.seed(2021) random.shuffle(images) random.seed(2021) random.shuffle(labels) # 计算训练、验证和测试集的数量 num_images = len(images) num_train = int(num_images * train_ratio) num_val = int(num_images * val_ratio) num_test = num_images - num_train - num_val # 划分训练、验证和测试集 train_images, train_labels = images[:num_train], labels[:num_train] val_images, val_labels = images[num_train:num_train+num_val], labels[num_train:num_train+num_val] test_images, test_labels = images[-num_test:], labels[-num_test:] # 创建保存目录 os.makedirs(os.path.join(data_dir, 'train'), exist_ok=True) os.makedirs(os.path.join(data_dir, 'val'), exist_ok=True) os.makedirs(os.path.join(data_dir, 'test'), exist_ok=True) # 复制图像和标签文件到对应的保存目录 for i in range(num_train): shutil.copy(train_images[i], os.path.join(data_dir, 'train')) shutil.copy(train_labels[i], os.path.join(data_dir, 'train')) for i in range(num_val): shutil.copy(val_images[i], os.path.join(data_dir, 'val')) shutil.copy(val_labels[i], os.path.join(data_dir, 'val')) for i in range(num_test): shutil.copy(test_images[i], os.path.join(data_dir, 'test')) shutil.copy(test_labels[i], os.path.join(data_dir, 'test')) print('数据集划分完成!') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值