最近在做本科毕设,是做个关于汽车类型识别的论文。已经在网上找来了VOC格式的车辆数据集,已有轿车、suv、卡车、公交车等类别的照片和标签文件,但是还是缺少一类数据:摩托车。摩托车数据集应该很好找,但是我比较懒,由于电脑已经有了经典的voc2007数据集,这20个类中恰好有motorbike这一类,所以懒得去上网再搜了,直接利用voc2007数据集中的摩托车数据集来凑。
先贴出voc2007数据集的链接
链接:https://pan.baidu.com/s/1mvc8kqXNOIRnb0u2T_FdpA
提取码:2b5d
链接里面的数据是分成test和trainval两个文件夹,我直接只用了test里的数据
在VOCtest这个文件夹里面(VOCtrainval里面也一样),层层找进去,如下图所示,共有以下5个文件夹
其中只需关心Annotations和JPEGImages这两个文件夹即可(其他的文件夹我不是很清楚)。
Annotations文件夹包含的是标签文件xml
JPEGImages文件夹包含的是图片文件jpg
首先在JPEGImages文件夹中寻找你要的类别的图像(按住Ctrl一个个选中),然后复制到另一个你新建的专门用来存放图像的文件夹:
复制完后,你会得到大概170张摩托车的照片:
接下来还剩下标签文件了,和图片相对应,有170张左右的标签文件。可是去Annotations一个个找很头疼,于是乎想到了用python写个脚本:
# 在voc2007中已有摩托车的图片下,自动获取对应的xml文件
import os
import shutil
# xmlfilepath:即将放入xml文件的路径
# imgfilepath:已抽取的摩托车图像文件夹路径
# xmlsrc:即将被抽取xml的文件夹路径
xmlfilepath=r'E:/车辆数据集/motorbike/xml/'
imgfilepath=r'E:/车辆数据集/motorbike/'
xmlsrc = r'E:/pascal-voc-2007/VOCtest_06-Nov-2007/VOCdevkit/VOC2007/Annotations/'
temp_img = os.listdir(imgfilepath)
src = os.listdir(xmlsrc)
# 注意:voc的图像格式都是jpg的
for img in temp_img:
imgname = img[:-4]
for xml in src:
xmlname = xml[:-4]
if imgname == xmlname:
shutil.copyfile( xmlsrc + '%s.xml'%xmlname, xmlfilepath + '%s.xml'%xmlname)
运行完后: