多边形标注_多伦多大学&NVIDIA最新成果:图像标注速度提升10倍!已开源~

点击上方“OpenCV大本营”,选择加"星标"

重磅干货,第一时间送达932689eb557874dfa62652f79f13dcaa.png

本文经授权转自公众号图灵Topia(ID:turingtopia)

作者:Huan Ling等     编辑:刘静

图像标注速度提升10倍!

这是多伦多大学与英伟达联合公布的一项最新研究:Curve-GCN的应用结果。

Curve-GCN是一种高效交互式图像标注方法,其性能优于Polygon-RNN++。在自动模式下运行时间为29.3ms,在交互模式下运行时间为2.6ms,比Polygon-RNN ++分别快10倍和100倍。

数据标注是人工智能产业的基础,在机器的世界里,图像与语音、视频等一样,是数据的一个种类。

对象实例分割是在图像中概括给定类的所有对象的问题,这一任务在过去几年受到了越来越多的关注,传统标记工具通常需要人工先在图片上点击光标描记物体边缘来进行标记。

然而,手动跟踪对象边界是一个费力的过程,每个对象大概需要30-60秒的时间。

9f3e2be9b4a4cf43316d93cec89f585b.png

为了缓解这个问题,已经提出了许多交互式图像分割技术,其通过重要因素加速注释。但是交互式分割方法大多是逐像素的(比如DEXTR),在颜色均匀的区域很难控制,所以最坏的情况下仍然需要很多点击。

Polygon-RNN将humans-in-the-loop(人机回圈)过程进行构架,在此过程中模型按顺序预测多边形的顶点。通过纠正错误的顶点,注释器可以在发生错误时进行干预。该模型通过调整校正来继续其预测。 Polygon-RNN显示在人类协议水平上产生注释,每个对象实例只需点击几下。这里最糟糕的情况是多边形顶点的数量,大多数对象的范围最多为30-40个点。

然而,模型的重复性将可扩展性限制为更复杂的形状,导致更难的训练和更长的推理。此外,期望注释器按顺序纠正错误,这在实践中通常是具有挑战性的。

9a56f6461bbc325d89315cc0c72ccf2a.png

4c89b445e3cecba9e37398cb39b29bad.png

最新研究成果中,研究人员将对象注释框架化为回归问题,其中所有顶点的位置被同时预测。

在Curve-GCN中,注释器会选择一个对象,然后选择多边形或样条轮廓。

92db516bc18458307aeb75293b9184ba.png

Curve-GCN自动地勾勒出对象的轮廓

3f91f7b3ef5e11d0064512075526d6e3.png

Curve-GCN允许交互式更正,并且可以自动重新预测多边形/样条

与Polygon-RNN + +相比:

  • Curve-GCN具有多边形或样条曲线参数

  • Curve-GCN可同时预测控制点(更快)

44e973bcf4dc917849e4d8ae4f93b2ee.png

40c16a2d7d3a5d87cba32095f35f3118.png

初始化预测

38aa46a212139dfde8ce8693ed1ee1ce.png

人工校正

2d78adf1c0b425bbbbd88655ec61f953.png

模型校正

746c1e50fa1811b7df6cb429a87f18bb.png

模型是在CityScapes数据集上训练的

5eec823fa5c24202aa3c171183bbc325.png

自动模式下的比较。从左到右:ground-truth, Polygon-GCN, Spline-GCN, ps - deeplab

93291c60d6d2b606d7bafe99e3dcd952.png

跨域自动模式。(上)cityscaps训练模型的开箱即用输出,(下)使用来自新领域的10%的数据进行微调。

3a8f60a3b20ddd37c19aa74a7e47f35b.png

47b0f40e7c2e5dfdf7ced2352389cd8b.png

将Polygon和Spline-GCN与Polygon-RNN ++和PSP-DeepLab进行比较

模型在最先进的基础上进行了改进,速度显著加快,允许只具有局部效果的交互式更正,从而为注释器提供了更多的控制。这将导致更好的整体注释策略。

代码:

https://github.com/fidler-lab/curve-gcn

论文地址:

https://arxiv.org/abs/1903.06874

论文摘要

通过边界跟踪来手动标记对象是一个繁重的过程。在Polygon-RNN ++中,作者提出了Polygon-RNN,它使用CNN-RNN架构以循环方式产生多边形注释,允许通过humans-in-the-loop(人机回圈)的方式进行交互式校正。

我们提出了一个新的框架,通过使用图形卷积网络(GCN)同时预测所有顶点,减轻了Polygon-RNN的时序性。我们的模型是端到端训练的。它支持多边形或样条对对象进行标注,从而提高了基于线和曲线对象的标注效率。结果表明,在自动模式下,Curve-GCN的性能优于现有的所有方法,包括功能强大的PSP-DeepLab,并且在交互模式下,Curve-GCN的效率明显高于Polygon-RNN++。我们的模型在自动模式下运行29.3ms,在交互模式下运行2.6ms,比Polygon-RNN ++分别快10倍和100倍。

bc32a91406b3cc2418d7b1f9e0ab0d7b.png

推荐阅读

  • 基于TensorFlow/Keras/PyTorch实现对自然场景的文字检测及端到端的OCR中文文字识别

  • 无人车车道线检测挑战赛落幕 冠军解决方案开源(附解题思路)

e024dc520dd940bea9f7f83e164ebb21.png

▲长按关注我们

欢迎给我"在看"!0b1504dc782e6e8fdb6c76aef88751e1.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值