Udacity Self-Driving 目标检测数据集简介与使用

前言

之前,博主为了得到更好的车载视频目标检测效果(偏工程实际,非刷榜),使用SSD框架训练过KITTI数据集,几次训练下来,结果不太理想。自己分析,原因较多,其中很重要的一条就是KITTI数据集不够大(标注图片仅7000多张),而且还是fine-tune from reduced VGG model,精度自然不会太高。解决方法大约有两种:一是扩充数据集;二是fine-tune已经训练好的SSD model,这样数据集小一点也能接受。这里先介绍方法一,而方法二还在探索中。

PS.数据集标注貌似不如KITTI严谨,存在几处关键错误,请慎重使用,已知的错误已更新在文中。

关于Udacity数据集

既然觉得数据偏少,一是可以增加类似的道路标注图片,如果自己动手,可以参考之前博文中介绍的LabelImg工具;二是直接换一个更大的目标检测数据集。这里本文就介绍一下偶然发现的Udacity目标检测数据集 ,这是Udacity为其自动驾驶算法比赛专门准备的数据集,对连续视频图片进行了仔细的标注(2D坐标),主要有汽车、行人、大型车辆等类别。

这里写图片描述

整个数据集分为两个子数据集,分别有9423和15000张图片,分辨率都是1920×1200,两个子数据集的标注文件稍有不同,不过接下来我会把他们合在一起,统一转换成Pascal VOC的格式。算下来Udacity数据集图片数量是KITTI的3倍多,在我看来训练SSD是差不多够用了。

制作数据集

首先要下载Dataset1Dataset2,一个是1.5GB,一个是3.3GB。如果常规方式下载太慢,建议使用EagleGet工具,用它下载国外链接就比较快了。

PS.找到了一个转换工具,还没测试过,感兴趣的可以试试:code to convert between KITTI, KITTI tracking, Pascal VOC, Udacity, CrowdAI and AUTTI

压缩图片

训练SSD300×300,原始图片分辨率可能偏高,个人感觉将图片大小压缩到原来的1/4,即960×600就比较合适。这里找到看图工具IrfanView,使用其批量转换功能来调整分辨率,得到新的同名压缩图片。

PS.这一步非必须,不做修改也是可用的!

生成标注txt文件

两个子数据集各有一个标注文件,名字应该都叫labels.csv,这是纯文本格式的文件,我们使用的话,直接把扩展名改为txt,方便python程序读取。由于标注信息都写在了一个文件内,我们需要将其按图片名分成若干个txt文件,最后再转化为xml文件。

PS.程序写的有点乱,具体路径还望各位自行修改。还有,两个标注文件中的已知错误如下,目前找出了6行标注有误,至于错误类型,相信看一眼就懂,然后可以直接修改或删除该行:

# 出错的标注语句
['912', '0', '951', '0', '1479498564477313399.jpg', 'car', 'http://crowdai.com/images/k-zz9yqpJIit7OuX/visualize']
['705', '0', '732', '0', '1479498820473341507.jpg', 'car', 'http://crowdai.com/images/Ng_nd_wBlqkgNDGb/visualize']
['721', '0', '751', '0', '1479499937073018706.jpg', 'car', 'http://crowdai.com/images/sbjD-93YWUi9hJ0c/visualize']
['763', '0', '793', '0', '1479505030914958665.jpg', 'pedestrian', 'http://crowdai.com/images/ONPwFZIwJ9yjwNQ1/visualize']

['1478020279199978858.jpg', '1614', '536', '1924', '668', '1', 'car']
['1478897138029169863.jpg', '1728', '570', '1922', '724', '1', 'car']
Part 1

先看1.5GB数据集的标注信息,复制几行如下:

xmin,xmax,ymin,ymax,Frame,Label,Preview URL
785,533,905,644,1479498371963069978.jpg,Car,http://crowdai.com/images
Udacity自动驾驶数据集Udacity为其自动驾驶算法比赛专门准备的数据集。该数据集对连续视频图片进行了仔细的标注,主要包含了汽车、行人、大型车辆等类别。数据集的大小为1.5G,共有9420张图像。标注格式采用了2D坐标,包括了Car、Truck、Pedestrian三类。如果你需要使用数据集,你可以通过下载dataset1来获取数据。同时,你可以使用数据格式转化工具将数据转化为voc格式,以便更好地进行处理和分析。\[2\]\[3\] #### 引用[.reference_title] - *1* [Udacity CH2 数据集解析小技巧](https://blog.csdn.net/weixin_44337149/article/details/118541085)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Udacity Self-Driving 目标检测数据集简介使用](https://blog.csdn.net/Jesse_Mx/article/details/72599220)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [Udacity Self-Driving自动驾驶目标检测数据集使用指南](https://blog.csdn.net/u010801994/article/details/85092375)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^koosearch_v1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 27
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值