论文地址:https://arxiv.org/abs/1803.09693 CVPR2018
摘要:
本文延续了Polygon RNN的思想并进行了一些改进:
- 新的CNN编码架构;
- 使用强化学习进行更加有效的网络训练;
- 使用图神经网络(Graph NN)明显提高网络输出的分辨率(112*112)。
网络的效果:
- 在自动和交互两种模式下的表现更加出色;
- 跨领域的泛化能力更加出色;
- 使用online fine-tune,进一步缩短标记新数据集的时间。
简介:
对图片中的结构进行详细的推理,在很多计算机视觉的应用中都至关重要:自动驾驶、地图绘制、医疗保健等。
神经网络虽然是进行语义和实例分割的有效方法,但需要大量且多样的数据,而人标记的速度很慢,20-30s每个实例。
[30]GrabCut:使用交互式工具进行像素级的分割‘;
[4]Polygon RNN:在[30]的基础上进一步输出包围目标的多边形<仅需要预测部分顶点>。
使用Polygon的优点:
- 稀疏性;
- 易于交互;
- 交互的高效性。
相关工作:
交互式标注:
[2]使用scribbles建立前/背景的模型,然后使用graph-cuts进行分割;
[20]在目标和背景上使用multiple scribbles;
[30]使用EM算法对人工标记的bbox进行像素级的前/背景标注;
[25]结合GrabCut和CNN,标注医学图像中的结构。
以上方法的缺点:像素级的分割,前/背景颜色相近时,性能差;
[4]使用稀疏的polygon,采用的RNN能更加有效的捕获目标的典型形状,输出分辨率为28*28
目标实例分割
[16.29.39.37.21.22.123.1.18]进行像素级的目标实例分割;
[38.33]在目标周围产生polygon。先产生边界段,然后通过最优化循环连接为目标区域;
[9]先产生小的polygon的super-pixel,然后组合成目标区域;
[4]使用神经网络产生polygon,并解决了其他工作未涉及的交互式标记问题。