语义分割制作自己的数据集——训练集、验证集、测试集

youngTaoo

已于 2022-08-01 16:34:39 修改

阅读量2.2k

点赞数

文章标签： python

于 2022-08-01 10:56:12 首次发布

本文链接：https://blog.csdn.net/m0_54019728/article/details/126096868

版权

用于语义分割的VOC数据集格式

语义分割任务voc数据集主要包括JPEGImages（存放原始图像），SegmentationClass（存放label），ImageSets/Segmentation（存放划分的数据集——包括train.txt、test.txt和val.txt三个文件）

将json文件夹中的原始图片和轮廓图片分别提取出来

import os 
import shutil

for dir_name in os.listdir('../data'): #返回指定路径下的文件和文件名列表，
                                                # os.listdir(path)中path是需要列出来的路径
    pic_name = dir_name[:-5] + '.png'
    from_dir = '../data/' + dir_name + '/label.png'  #img.png是原图；label.png是标签
    to_dir = './data/imgs/' + pic_name     #将img.png复制到imgs文件夹中；label.png存放在masks文件夹中
    shutil.copyfile(from_dir, to_dir)  #将from_dir路径下的文件label.png复制到to_dir中
                                        # 这里有两个含义：一是复制到该路径下；二是将名称设定为pic_name
        
    print (from_dir)
    print (to_dir)

划分数据集，生成txt文件

#生成txt文件
imagedir = './data/SegmentationClass/'
outdir = './data/ImageSets/Segmentation/'

images = []
for file in os.listdir(imagedir):
    filename = file.split('.')[0]
    images.append(filename)
# 训练集测试集验证集比例为：7：2：1
train, test = train_test_split(images, train_size=0.7, random_state=0)
val, test = train_test_split(test, train_size=0.2/0.3, random_state=0)

with open(outdir + os.sep +"train.txt", 'w') as f:
    f.write('\n'.join(train))

with open(outdir + os.sep +"val.txt", 'w') as f:
    f.write('\n'.join(val))

with open(outdir + os.sep +"test.txt", 'w') as f:
    f.write('\n'.join(test))

with open(outdir + os.sep +"trainval.txt", 'w') as f:
    f.write('\n'.join(images))

在这里插入图片描述

json_to_dataset.py

import numpy as np
import PIL.Image
from labelme import utils

if __name__ == '__main__':
    jpgs_path = "./JPEGImages"
    pngs_path = "./SegmentationClass"
    # classes = ["_background_", "aeroplane", "bicycle", "bird", "boat", "bottle", "bus", "car", "cat", "chair", "cow","diningtable", "dog", "horse", "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"]
    #classes这里自己指定类别，"_background_"作为第一个参数，其他类别有多少写多少（1+目标的数目）
    count = os.listdir("path1") #path1为数据所在文件路径
    for i in range(0, len(count)):
        path = os.path.join("path1", count[i]) 

        if os.path.isfile(path) and path.endswith('json'):
            data = json.load(open(path))

            if data['imageData']:
                imageData = data['imageData']
            else:
                imagePath = os.path.join(os.path.dirname(path), data['imagePath'])
                with open(imagePath, 'rb') as f:
                    imageData = f.read()
                    imageData = base64.b64encode(imageData).decode('utf-8')

            img = utils.img_b64_to_arr(imageData)
            label_name_to_value = {'_background_': 0}
            for shape in data['shapes']:
                label_name = shape['label']
                if label_name in label_name_to_value:
                    label_value = label_name_to_value[label_name]
                else:
                    label_value = len(label_name_to_value)
                    label_name_to_value[label_name] = label_value

            # label_values must be dense
            label_values, label_names = [], []
            for ln, lv in sorted(label_name_to_value.items(), key=lambda x: x[1]):
                label_values.append(lv)
                label_names.append(ln)
            assert label_values == list(range(len(label_values)))

            lbl = utils.shapes_to_label(img.shape, data['shapes'], label_name_to_value)

            PIL.Image.fromarray(img).save(osp.join(jpgs_path, count[i].split(".")[0] + '.jpg'))

            new = np.zeros([np.shape(img)[0], np.shape(img)[1]])
            for name in label_names:
                index_json = label_names.index(name)
                index_all = classes.index(name)
                new = new + index_all * (np.array(lbl) == index_json)

            utils.lblsave(osp.join(pngs_path, count[i].split(".")[0] + '.png'), new)
            print('Saved ' + count[i].split(".")[0] + '.jpg and ' + count[i].split(".")[0] + '.png')