Udacity Self-Driving 目标检测数据集简介与使用

最新推荐文章于 2024-07-29 09:11:11 发布

Jesse_Mx

最新推荐文章于 2024-07-29 09:11:11 发布

阅读量1.7w

点赞数 15

分类专栏： SSD 文章标签：数据集目标检测

本文链接：https://blog.csdn.net/jesse_mx/article/details/72599220

版权

前言

之前，博主为了得到更好的车载视频目标检测效果（偏工程实际，非刷榜），使用SSD框架训练过KITTI数据集，几次训练下来，结果不太理想。自己分析，原因较多，其中很重要的一条就是KITTI数据集不够大（标注图片仅7000多张），而且还是fine-tune from reduced VGG model，精度自然不会太高。解决方法大约有两种：一是扩充数据集；二是fine-tune已经训练好的SSD model，这样数据集小一点也能接受。这里先介绍方法一，而方法二还在探索中。

PS.数据集标注貌似不如KITTI严谨，存在几处关键错误，请慎重使用，已知的错误已更新在文中。

关于Udacity数据集

既然觉得数据偏少，一是可以增加类似的道路标注图片，如果自己动手，可以参考之前博文中介绍的LabelImg工具；二是直接换一个更大的目标检测数据集。这里本文就介绍一下偶然发现的Udacity目标检测数据集，这是Udacity为其自动驾驶算法比赛专门准备的数据集，对连续视频图片进行了仔细的标注（2D坐标），主要有汽车、行人、大型车辆等类别。

这里写图片描述

整个数据集分为两个子数据集，分别有9423和15000张图片，分辨率都是1920×1200，两个子数据集的标注文件稍有不同，不过接下来我会把他们合在一起，统一转换成Pascal VOC的格式。算下来Udacity数据集图片数量是KITTI的3倍多，在我看来训练SSD是差不多够用了。

制作数据集

首先要下载Dataset1 和Dataset2，一个是1.5GB，一个是3.3GB。如果常规方式下载太慢，建议使用EagleGet工具，用它下载国外链接就比较快了。

PS.找到了一个转换工具，还没测试过，感兴趣的可以试试：code to convert between KITTI, KITTI tracking, Pascal VOC, Udacity, CrowdAI and AUTTI

压缩图片

训练SSD300×300，原始图片分辨率可能偏高，个人感觉将图片大小压缩到原来的1/4，即960×600就比较合适。这里找到看图工具IrfanView，使用其批量转换功能来调整分辨率，得到新的同名压缩图片。

PS.这一步非必须，不做修改也是可用的!

生成标注txt文件

两个子数据集各有一个标注文件，名字应该都叫labels.csv，这是纯文本格式的文件，我们使用的话，直接把扩展名改为txt，方便python程序读取。由于标注信息都写在了一个文件内，我们需要将其按图片名分成若干个txt文件，最后再转化为xml文件。

PS.程序写的有点乱，具体路径还望各位自行修改。还有，两个标注文件中的已知错误如下，目前找出了6行标注有误，至于错误类型，相信看一眼就懂，然后可以直接修改或删除该行：

# 出错的标注语句
['912', '0', '951', '0', '1479498564477313399.jpg', 'car', 'http://crowdai.com/images/k-zz9yqpJIit7OuX/visualize']
['705', '0', '732', '0', '1479498820473341507.jpg', 'car', 'http://crowdai.com/images/Ng_nd_wBlqkgNDGb/visualize']
['721', '0', '751', '0', '1479499937073018706.jpg', 'car', 'http://crowdai.com/images/sbjD-93YWUi9hJ0c/visualize']
['763', '0', '793', '0', '1479505030914958665.jpg', 'pedestrian', 'http://crowdai.com/images/ONPwFZIwJ9yjwNQ1/visualize']

['1478020279199978858.jpg', '1614', '536', '1924', '668', '1', 'car']
['1478897138029169863.jpg', '1728', '570', '1922', '724', '1', 'car']

Part 1

先看1.5GB数据集的标注信息，复制几行如下：

xmin,xmax,ymin,ymax,Frame,Label,Preview URL
785,533,905,644,1479498371963069978.jpg,Car,http://crowdai.com/images

最低0.47元/天解锁文章

Jesse_Mx

关注

15
点赞
踩
90

收藏

觉得还不错? 一键收藏
27
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录