机器学习即将带来一系列的社会变革,其中一个被大肆宣传的领域是自动驾驶。但是,伴随着自动驾驶技术的巨大动力而来的是巨大的责任,如果一辆自动驾驶汽车训练的不够好,可能会引发车祸,导致人员伤亡。
这是一个非常危险的问题。
机器学习是通过举例来教计算机算法以执行新任务的过程,但是,ML 模型只能在和它们所训练的数据一样的情况下表现良好。
缺失大量行人和关键标注的自动驾驶数据集问题很大
然而,合适的训练数据集并不是很多。在 github 上有一个广受欢迎的数据集 Udacity(https://github.com/udacity/self-driving-car),有着 5000+ star,它被成千上万的学生用来构建开源的自动驾驶汽车项目。
对此,Roboflow 的创始人 Brad Dwyer 感到惊讶和担忧,因为这个数据集中包含了很多关键的错误和遗漏。
他们对广泛使用的 Udacity Dataset 2(https://github.com/udacity/self-driving-car/tree/master/annotations) 中的 15000 幅图像进行了手工检查,发现其中 4986 幅(约占总数据量的 33%)存在问题。这些问题包括数以千计辆未贴标签的车辆、数以百计未贴标签的行人和几十个未贴标签的骑自行车的人。他们还发现了许多模糊的注释、重复的边界框和过大的边界框的实例。
![f53a8321631ee2d4d3ef8de01d28b60f.png](https://i-blog.csdnimg.cn/blog_migrate/537b9cacbe9dd7ebefb48fc467a613fb.jpeg)
错误实例(原始数据集中缺少突出显示的红色注释)
或许最令人震惊的是