利用VOC2007数据集创建属于自己的数据集

       最近在做本科毕设,是做个关于汽车类型识别的论文。已经在网上找来了VOC格式的车辆数据集,已有轿车、suv、卡车、公交车等类别的照片和标签文件,但是还是缺少一类数据:摩托车。摩托车数据集应该很好找,但是我比较懒,由于电脑已经有了经典的voc2007数据集,这20个类中恰好有motorbike这一类,所以懒得去上网再搜了,直接利用voc2007数据集中的摩托车数据集来凑。

先贴出voc2007数据集的链接

链接:https://pan.baidu.com/s/1mvc8kqXNOIRnb0u2T_FdpA 
提取码:2b5d

       链接里面的数据是分成test和trainval两个文件夹,我直接只用了test里的数据

            

       在VOCtest这个文件夹里面(VOCtrainval里面也一样),层层找进去,如下图所示,共有以下5个文件夹

其中只需关心Annotations和JPEGImages这两个文件夹即可(其他的文件夹我不是很清楚)。

       Annotations文件夹包含的是标签文件xml

       JPEGImages文件夹包含的是图片文件jpg

 

        首先在JPEGImages文件夹中寻找你要的类别的图像(按住Ctrl一个个选中),然后复制到另一个你新建的专门用来存放图像的文件夹:

  

 

       复制完后,你会得到大概170张摩托车的照片:

接下来还剩下标签文件了,和图片相对应,有170张左右的标签文件。可是去Annotations一个个找很头疼,于是乎想到了用python写个脚本:

# 在voc2007中已有摩托车的图片下,自动获取对应的xml文件
import os
import shutil

# xmlfilepath:即将放入xml文件的路径
# imgfilepath:已抽取的摩托车图像文件夹路径
# xmlsrc:即将被抽取xml的文件夹路径

xmlfilepath=r'E:/车辆数据集/motorbike/xml/'
imgfilepath=r'E:/车辆数据集/motorbike/'
xmlsrc = r'E:/pascal-voc-2007/VOCtest_06-Nov-2007/VOCdevkit/VOC2007/Annotations/'


temp_img = os.listdir(imgfilepath)
src = os.listdir(xmlsrc)

# 注意:voc的图像格式都是jpg的
for img in temp_img:
    imgname = img[:-4]
    for xml in src:
        xmlname = xml[:-4]
        if imgname == xmlname:
           shutil.copyfile( xmlsrc + '%s.xml'%xmlname, xmlfilepath + '%s.xml'%xmlname)

运行完后:

 

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值