建立自己的voc数据集_一次将自己的数据集制作成PASCAL VOC格式的惨痛经历

weixin_39719042

于 2020-12-20 16:05:50 发布

阅读量394

点赞数

文章标签：建立自己的voc数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39719042/article/details/111743418

版权

本文详细记录了将个人数据集转化为PASCAL VOC格式的过程，包括读写CSV、图片重命名、创建VOC目录结构、生成XML标注文件和txt文件，最后运行voc_annotation.py的步骤。通过这一系列操作，可以将数据集准备好供模型如keras-yolo3训练使用。

摘要由CSDN通过智能技术生成

因为准备训练keras-yolo3，开源代码上给出了voc_annotation.py文件，只要将自己的数据格式处理成PASCAL VOC格式，那么运行voc_annotation.py就可以将自己的数据集处理成模型需要的数据集。

现在我的标注数据格式如下(CSV文件，第一列是文件名，第二列对应bbox)：

图片是文件：

不管如何先写一个读写CSV文件的脚本utils.py：

# -*- coding: utf-8 -*-

# @Author : matthew

# @File : utils.py

# @Software: PyCharm

import csv

import os

def read_csv(csv_path, pre_dir):

'''

:param csv_path:csv文件路径

:param pre_dir: 图片数据所在的文件夹

:return:

'''

label_dict = {}

with open(csv_path, "r") as f:

reader = csv.reader(f)

header = True

for line in reader:

# 除去文件头

if header:

header = False

continue

# 处理文件存储路径，当做标签

image_path = os.path.join(pre_dir, line[0])

# 处理后面的bbox

bbox = []

if line[1] is not None and len(line[1].strip()) > 0:

for i in line[1].split(';'):

if i is not None and len(i.strip()) > 0:

bbox.append(list(map(lambda x: round(float(x.strip())), i.split('_'))))

# 添加到label_dict

label_dict.setdefault(image_path, bbox)

return label_dict

def write_csv(result_dict, out_path='out.csv'):

'''

:param result_dict: 只一个图片路径，对应存储相应bbox的list的字典

:param out_path:

:return:

'''

with open(out_path, 'w', newline='') as f:

writer = csv.writer(f)

# 写文件头

writer.writerow(['name', 'coordinate'])

for image in result_dict.keys():

image_name = os.path.split(image)[-1]

bbox = result_dict.get(image, [])

bbox_rs = ';'.join(['_'.join(str(int(id)) for id in i) for i in bbox])

writer.writerow([image_name, bbox_rs])

if __name__ == '__main__':

label_dict = utils.read_csv(csv_path=r'./train_b.csv',

pre_dir=r'/home/matthew/dataset')

write_csv(label_dict)

下面开始正式制作数据集！

第一步：改名

VOC标准数据集中图片名称是“000001.jpg”都为6-9位数字，jpg格式的。

因为是第一次制作，以为这种命名是必须的，我看网上也有不少人说要改名的问题。(制作完毕后，发现这一步是大可不必的，所以想省就省了吧。)

为了规范，还是进行了改名操作。

最低0.47元/天解锁文章

weixin_39719042

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
建立自己的voc数据集_一次将自己的数据集制作成PASCAL VOC格式的惨痛经历

因为准备训练keras-yolo3，开源代码上给出了voc_annotation.py文件，只要将自己的数据格式处理成PASCAL VOC格式，那么运行voc_annotation.py就可以将自己的数据集处理成模型需要的数据集。现在我的标注数据格式如下(CSV文件，第一列是文件名，第二列对应bbox)：图片是文件：不管如何先写一个读写CSV文件的脚本utils.py：# -*- coding: ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。