论文:Minimizing Supervision for Free-space Segmentation
源码地址:
论文翻译:
理解参考:
核心技术:
本文提出了一种新的对图片进行自动标注的方法从而自动产生大量的标注数据用于训练分割网络.
这个方法使用的思路几乎是全新的,创新性十分高,从后面展示的结果来看,效果也非常好.
整个方法的流程如下图所示:
首先使用车辆在行驶的道路上采集到合适的图像,然后使用在ImageNet上预训练好的ResNet进行图像特征的提取,使用第26层的FeatureMap作为后续使用的特征图,同时基于图像本身的特征,将具有相近位置相似纹理特征的像素点聚合在一起,成为SuperPixels(超像素),然后基于之前得到的特征图和超像素进行Superpixel align,
使用超像素中随机选定的十个点的双线性插值特征图的平均值作为这个超像素的特征向量.接着基于超像素的特征向量进行聚类操作,
这里作者选用的是K-means聚类,同时为了确定聚类出来的那个簇是free-space,
这里聚类的过程中还参考使用了位置优先信息,进行加权的K-means聚类.使得聚类了得到的结果可以教简单的分离出free-space,分离得到的freespace进行标注就是整个算法得到的最终结果.
这里作者还提出了Batch Image Clustering的技术,即时序下相近的几张图片放在一起处理一起进行聚类,由于时间相近的图像内容上也相近放在一起处理可以在一定程度上可以更有益于聚类操作的效果.
突出贡献:
提出了全新的,人为参与很少的自动进行free-space标注的方法,思路十分新奇,效果也很不错
存在问题:
存在问题方面有的是源自作者自己提出有的是我自己的一些看法,疑问,可能会存在一些问题,欢迎读者一起讨论指正.谢谢
个人认为文中作者基于的假设比较强烈,在多个地方做出了较多的假设(观测)限定.
Our approach is based on two straightforward observations. First, free-space has a strong location prior: pixels corresponding to free space are likely to be located at the bottom and center of the image taken by a front-facing camera, since in training data there is always free-space under the vehicle (by definition). Second, a free-space region generally has homogeneous texture since road surfaces are typically level and smooth (e.g. concrete or asphalt in an urban street).
不过这也不算是个问题,科学研究总是需要合理的观测,假设限定,不然的话,问题也就无从研究解决.
第二点就是我看完论文之后忽然想到的,
我们训练分割网络想要实现的最终目标就是使用训练好的网络检测出图像中我们需要的free-space的位置,而这个作者提出的用于标注的方法相当于在自动获取ground Truth,然后再去训练网络,再检测,,,,,那么为啥不直接用这个方法拿去检测呢,,,,,?很是奇怪.(后来我想了一下,在那个Location prior信息里面可能需要人为的参与,不能够使用计算机进行全自动的提取)
更正,我后面再次翻看论文的时候发现,作者在论文第一页的某处悄悄的说了哪里需要人为参与,论文的其它地方感觉有种故意避免提及人力参与的感觉.
The human effort required is reduced to specifying the location prior and adjusting hyperparameters such as superpixel granularity and the number of clusters.
上面的句子就是论文中提及的使用人工参与的部分~