利用VOC2007数据集创建属于自己的数据集_摩托车拍照数据集-CSDN博客

本文链接：https://blog.csdn.net/qq_36935691/article/details/105234959

最近在做本科毕设，是做个关于汽车类型识别的论文。已经在网上找来了VOC格式的车辆数据集，已有轿车、suv、卡车、公交车等类别的照片和标签文件，但是还是缺少一类数据：摩托车。摩托车数据集应该很好找，但是我比较懒，由于电脑已经有了经典的voc2007数据集，这20个类中恰好有motorbike这一类，所以懒得去上网再搜了，直接利用voc2007数据集中的摩托车数据集来凑。

先贴出voc2007数据集的链接

链接：https://pan.baidu.com/s/1mvc8kqXNOIRnb0u2T_FdpA
提取码：2b5d

链接里面的数据是分成test和trainval两个文件夹，我直接只用了test里的数据

在VOCtest这个文件夹里面（VOCtrainval里面也一样），层层找进去，如下图所示，共有以下5个文件夹

其中只需关心Annotations和JPEGImages这两个文件夹即可（其他的文件夹我不是很清楚）。

Annotations文件夹包含的是标签文件xml

JPEGImages文件夹包含的是图片文件jpg

首先在JPEGImages文件夹中寻找你要的类别的图像（按住Ctrl一个个选中），然后复制到另一个你新建的专门用来存放图像的文件夹：

复制完后，你会得到大概170张摩托车的照片：

接下来还剩下标签文件了，和图片相对应，有170张左右的标签文件。可是去Annotations一个个找很头疼，于是乎想到了用python写个脚本：

# 在voc2007中已有摩托车的图片下，自动获取对应的xml文件
import os
import shutil

# xmlfilepath:即将放入xml文件的路径
# imgfilepath：已抽取的摩托车图像文件夹路径
# xmlsrc:即将被抽取xml的文件夹路径

xmlfilepath=r'E:/车辆数据集/motorbike/xml/'
imgfilepath=r'E:/车辆数据集/motorbike/'
xmlsrc = r'E:/pascal-voc-2007/VOCtest_06-Nov-2007/VOCdevkit/VOC2007/Annotations/'


temp_img = os.listdir(imgfilepath)
src = os.listdir(xmlsrc)

# 注意:voc的图像格式都是jpg的
for img in temp_img:
    imgname = img[:-4]
    for xml in src:
        xmlname = xml[:-4]
        if imgname == xmlname:
           shutil.copyfile( xmlsrc + '%s.xml'%xmlname, xmlfilepath + '%s.xml'%xmlname)

运行完后：