MobileInst: Video Instance Segmentation on the Mobile

MobileInst是一个轻量级的框架,专为移动设备设计,用于视频实例分割。它通过双转换器实例解码器和语义增强掩码解码器实现对象分割,并利用内核重用和内核关联进行跨帧跟踪。在COCO和YouTube-VIS数据集上,MobileInst展现了优越性能,显著降低了推理延迟,为移动设备上的视频实例分割提供了解决方案。
摘要由CSDN通过智能技术生成

虽然近年来针对视频实例分割的方法取得了良好的效果,但这些方法在移动设备上的实际应用中仍然存在困难,主要存在(1)计算和内存成本高,(2)跟踪对象的启发式复杂。为了解决这些问题,我们提出了MobileInst,一个轻量级和移动友好的框架,用于移动设备上的视频实例分割。

首先,MobileInst采用移动视觉转换器提取多级语义特征,提出了一种高效的基于查询的双转换器掩码实例解码器和一种语义增强的掩码解码器,用于每帧生成实例分割。其次,MobileInst利用简单而有效的内核重用和内核关联来跟踪视频实例分割对象。此外,我们提出了时态查询传递来增强内核的跟踪能力。我们在COCO和YouTube-VIS数据集上进行了实验,证明了MobileInst的优越性,并在没有其他加速方法的情况下评估了Qualcomm Snapdragon-778G移动CPU核心1上的推理延迟。在COCO数据集上,MobileInst在移动CPU上实现了30.5掩码AP和176 ms,与之前的SOTA相比,这将延迟降低了50%。对于视频实例分割,MobileInst在YouTube-VIS 2019上实现了35.0 AP,在YouTube-VIS 2021上实现了30.1 AP。代码将用于促进实际应用和未来的研究。

高通人工智能研究是高通技术公司的一项倡议。

图1:速度和准确性的权衡。我们在COCO test-dev上评估所有模型,并在一个移动CPU(即Snapdragon@778G)上测量推理速度。提出的MobileInst方法在移动设备上的速度和准确性都优于其他方法。

1.  介绍。

视频实例分割(VIS)[48]是一项基本但具有挑战性的视觉任务,它同时识别、分割和跟踪视频序列中的对象。它将图像实例分割扩展到视频,并更专注于聚合时间信息和跨帧跟踪对象。深度卷积神经网络和视觉转换器的进步在视频实例分割方面取得了很大的进展,并取得了巨大的性能[2,1,24]。视频实例分割吸引了广泛的应用,如机器人、自动驾驶汽车、视频编辑和增强现实。然而,许多现实世界的应用程序倾向于要求这些VIS方法在资源受限的设备上运行,例如,移动电话和低延迟的推理。在移动或嵌入式设备上开发和部署有效的视频实例分割方法具有挑战性和紧迫性。

尽管VIS领域已经取得了很大的进展,但仍有几个障碍阻碍了现代VIS框架部署在资源有限的边缘设备上,例如移动芯片组。目前流行的视频实例分割方法可以分为两类:离线方法(剪辑级)和在线方法(帧级)。

离线方法[44,21,51,45,19,24]将视频分割成片段,为每个片段生成实例预测,然后通过跨剪辑的实例匹配来关联实例。

使用变压器的端到端视频实例分割。

利用帧间通信变压器进行视频实例分割。

用于视频实例分割的时间高效视觉转换器。

Seqformer:用于视频实例分割的顺序变压器。

Vita:通过对象令牌关联的视频实例分割。

然而,在计算和内存成本方面,使用剪辑(多帧)的推理在移动设备上是不可行的。

然而,在线方法[48,50,4,14,46]使用帧级输入进行转发和预测,但需要复杂的启发式过程来跨帧关联实例,例如NMS,这在移动设备中效率很低。

交叉学习用于快速在线视频实例分割。

Sipmask:用于快速图像和视频实例分割的空间信息保存。

Compfeat:用于视频实例分割的综合特征聚合。

为视频实例分割的在线模型辩护。

此外,目前的视频实例分割方法往往采用较重的架构,特别是基于变压器的分割方法,计算量和内存消耗较大。直接缩小模型尺寸以降低推理延迟将不可避免地导致严重的性能下降,这限制了最近方法的实际应用。为资源受限的设备设计和部署视频实例分割技术还没有得到很好的探索,这对于现实世界的应用来说不是微不足道的,而是至关重要的。

本文首次引入MobileInst算法在移动设备上实现高性能视频实例分割。MobileInst从两个关键方面来看是高效和移动友好的(1)轻量级架构,用于每帧分割对象;(2)简单而有效的时间建模,用于跨帧跟踪实例。

具体来说,MobileInst由一个基于查询的双转换器实例解码器组成,它利用对象查询来分割对象,通过全局上下文和本地细节更新对象查询,然后生成掩码内核和分类分数。为了有效地聚合掩码特征的多尺度特征和全局上下文,MobileInst采用了语义增强的掩码解码器。对象查询被强制以一对一的方式表示对象,我们发现掩码内核(由对象查询生成)在连续的帧中倾向于在时间上一致,即,相同的内核(查询)对应于附近帧中的相同对象,

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值