语义分割制作自己的数据集——训练集、验证集、测试集

用于语义分割的VOC数据集格式

语义分割任务voc数据集主要包括JPEGImages(存放原始图像),SegmentationClass(存放label),ImageSets/Segmentation(存放划分的数据集——包括train.txt、test.txt和val.txt三个文件)

将json文件夹中的原始图片和轮廓图片分别提取出来

import os 
import shutil

for dir_name in os.listdir('../data'): #返回指定路径下的文件和文件名列表,
                                                # os.listdir(path)中path是需要列出来的路径
    pic_name = dir_name[:-5] + '.png'
    from_dir = '../data/' + dir_name + '/label.png'  #img.png是原图;label.png是标签
    to_dir = './data/imgs/' + pic_name     #将img.png复制到imgs文件夹中;label.png存放在masks文件夹中
    shutil.copyfile(from_dir, to_dir)  #将from_dir路径下的文件label.png复制到to_dir中
                                        # 这里有两个含义:一是复制到该路径下;二是将名称设定为pic_name
        
    print (from_dir)
    print (to_dir)

划分数据集,生成txt文件

#生成txt文件
imagedir = './data/SegmentationClass/'
outdir = './data/ImageSets/Segmentation/'

images = []
for file in os.listdir(imagedir):
    filename = file.split('.')[0]
    images.append(filename)
# 训练集测试集验证集比例为:7:2:1
train, test = train_test_split(images, train_size=0.7, random_state=0)
val, test = train_test_split(test, train_size=0.2/0.3, random_state=0)

with open(outdir + os.sep +"train.txt", 'w') as f:
    f.write('\n'.join(train))

with open(outdir + os.sep +"val.txt", 'w') as f:
    f.write('\n'.join(val))

with open(outdir + os.sep +"test.txt", 'w') as f:
    f.write('\n'.join(test))

with open(outdir + os.sep +"trainval.txt", 'w') as f:
    f.write('\n'.join(images))

在这里插入图片描述
在这里插入图片描述

json_to_dataset.py

import numpy as np
import PIL.Image
from labelme import utils

if __name__ == '__main__':
    jpgs_path = "./JPEGImages"
    pngs_path = "./SegmentationClass"
    # classes = ["_background_", "aeroplane", "bicycle", "bird", "boat", "bottle", "bus", "car", "cat", "chair", "cow","diningtable", "dog", "horse", "motorbike", "person", "pottedplant", "sheep", "sofa", "train", "tvmonitor"]
    #classes这里自己指定类别,"_background_"作为第一个参数,其他类别有多少写多少(1+目标的数目)
    count = os.listdir("path1") #path1为数据所在文件路径
    for i in range(0, len(count)):
        path = os.path.join("path1", count[i]) 

        if os.path.isfile(path) and path.endswith('json'):
            data = json.load(open(path))

            if data['imageData']:
                imageData = data['imageData']
            else:
                imagePath = os.path.join(os.path.dirname(path), data['imagePath'])
                with open(imagePath, 'rb') as f:
                    imageData = f.read()
                    imageData = base64.b64encode(imageData).decode('utf-8')

            img = utils.img_b64_to_arr(imageData)
            label_name_to_value = {'_background_': 0}
            for shape in data['shapes']:
                label_name = shape['label']
                if label_name in label_name_to_value:
                    label_value = label_name_to_value[label_name]
                else:
                    label_value = len(label_name_to_value)
                    label_name_to_value[label_name] = label_value

            # label_values must be dense
            label_values, label_names = [], []
            for ln, lv in sorted(label_name_to_value.items(), key=lambda x: x[1]):
                label_values.append(lv)
                label_names.append(ln)
            assert label_values == list(range(len(label_values)))

            lbl = utils.shapes_to_label(img.shape, data['shapes'], label_name_to_value)

            PIL.Image.fromarray(img).save(osp.join(jpgs_path, count[i].split(".")[0] + '.jpg'))

            new = np.zeros([np.shape(img)[0], np.shape(img)[1]])
            for name in label_names:
                index_json = label_names.index(name)
                index_all = classes.index(name)
                new = new + index_all * (np.array(lbl) == index_json)

            utils.lblsave(osp.join(pngs_path, count[i].split(".")[0] + '.png'), new)
            print('Saved ' + count[i].split(".")[0] + '.jpg and ' + count[i].split(".")[0] + '.png')
    
  • 0
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
为了训练自己的语义分割数据集,你可以按照以下步骤进行操作: 1. 收集并标注数据集:首先,你需要收集一组包含所需特征的图像,并对它们进行标注,以指定每个像素的类别或区域。这可以通过使用标注工具(如labelme)进行手动标注完成。 2. 数据增强:为了增加数据集的多样性和数量,你可以使用数据增强技术对图像进行扩充。例如,可以进行随机旋转、翻转、缩放或调整图像的亮度和对比度等操作。这将有助于提高模型的鲁棒性和泛化能力。 3. 准备数据集:将标注好的图像和对应的标签转换成适用于语义分割模型训练的数据格式。通常情况下,数据集应该包含输入图像和对应的标签图像。 4. 选择合适的模型和训练算法:根据你的需求和数据集特点,选择适合的语义分割模型和相应的训练算法。常见的模型包括UNet、DeepLab、PSPNet等,可以根据实际情况进行选择。 5. 划分数据集:将数据集划分为训练集验证集测试集训练集用于模型的训练,验证集用于调整模型的超参数和监控模型的性能,测试集用于评估模型的泛化能力。 6. 模型训练:使用准备好的数据集和选定的模型,进行模型的训练。在训练过程中,需要选择适当的损失函数和优化器,并设置合适的学习率和迭代次数。 7. 模型评估和调优:在训练完成后,使用验证集对模型进行评估,并根据评估结果进行模型的调优。可以尝试不同的超参数组合和训练策略,以获得更好的性能。 8. 模型测试和应用:最后,使用测试集对模型进行最终的评估,并将模型应用于实际场景中进行语义分割任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值