OW-VISCap——开放世界视频实例分割方法研究

最新推荐文章于 2024-10-31 17:05:07 发布

知来者逆

最新推荐文章于 2024-10-31 17:05:07 发布

阅读量1.4k

点赞数 33

分类专栏：智能算法文章标签：深度学习视频分割图像分割语义分割实例分割计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/matt45m/article/details/141402978

版权

智能算法专栏收录该内容

109 篇文章 20 订阅

订阅专栏

概述

论文地址：https://arxiv.org/pdf/2404.03657

本文提出了一种名为 OW-VISCap（开放世界视频实例分割和字幕）的方法。其三大贡献是

开放世界对象查询：除了已知对象查询外，还引入了开放世界对象查询，以发现未知对象。这样就可以在不需要额外输入的情况下检测到未知物体。
使用遮罩关注机制生成以对象为中心的字幕：在对象-文本转换器中引入遮罩关注机制，使其能够生成以对象为中心的描述性字幕。
对象查询之间的对比度损失：引入对比度损失是为了抑制对象查询之间的相似性，减少重叠对象的检测，同时鼓励发现新的对象。

所提出的方法在开放世界视频实例分割、视频对象字幕和封闭世界视频实例分割这三个任务中表现出色。定性结果还表明，所提出的方法可以检测未知对象并生成以对象为中心的字幕。

相关研究

首先，有关开放世界视频实例分割的研究可分为两大类。

需要提示的方法：要求用户输入信息，并事先了解地面实况等。
无提示方法：为了发现新的对象，可以使用对象建议等方法。不过，这些方法也存在一些问题，例如性能有限或无法区分开放世界和封闭世界的物体。

另一方面，DVOC-DS[58] 是目前唯一的视频物体捕捉研究成果。然而，DVOC-DS 也存在一些问题，如无法应对长视频时间和无法捕捉物体的多个动作。

还有人提出了 OWVISFormer [39] 和 IDOL [50] 等方法来抑制对象查询之间的相似性。这些方法主要在封闭世界环境中有效，但在开放世界环境中并不充分。

拟议方法（OW-VISCap）

首先，对于开放世界对象查询 q_ow，可通过使用提示编码器（图 2 左侧的紫色区域）对视频帧上等间距的网格点进行编码来获得。这种设计有利于在整个视频区域内发现新奇的物体。

它还为 q_ow 引入了一个专门设计的开放世界损失函数 L_ow，以鼓励对未知物体的检测。

其次，对于以对象为中心的字幕，在对象-文本转换器中使用掩码关注机制可生成关注对象区域的字幕（图 2，右）。具体来说，遮罩关注是利用检测头获得的物体分割遮罩来生成字幕，字幕不仅关注局部物体特征，还考虑了整个视频的上下文。

最后，对比度损失 L_cont 用于抑制对象查询之间的相似性，其效果是防止重叠检测，并促进新对象的发现。在封闭世界环境中，它有助于抑制重叠误报；在开放世界环境中，它有助于发现新的物体。

因此，OW-VISCap 通过其独特的开放世界对象发现、以对象为中心的字幕和查询到查询的相似性抑制设计，提供了综合视频理解能力。

试验

本文在三个任务中对 OW-VISCap 进行了评估：开放世界视频实例分割（OW-VIS）、视频对象字幕（Dense VOC）和封闭世界视频实例分割（VIS）。

OW-VIS 在 BURST[2]数据集（表 1）上进行了评估，结果显示，在未知（不常见）类别中，OW-VIS 的性能提高了约 6%。

对于密集 VOC，我们使用了 VidSTG[57]数据集（表 2），结果显示生成字幕的正确率提高了约 7%，尽管物体检测的准确率略低。这是因为所提出的遮罩关注机制允许生成以对象为中心的字幕。

最后，在 OVIS [36] 数据集上对 VIS 进行了评估（表 3），结果表明其性能与最新技术相当。同样可以看出，物体查询之间的对比度损失有助于抑制重复检测。

图 S1 和图 S2 分别显示了 BURST 和 VidSTG 数据集的定性结果。可以看出，该系统能够检测和分割未知物体，并生成以物体为中心的字幕。

结论

本文提出的 OW-VISCap 将视频实例分割和字幕制作整合到开放世界环境中。它具有三个要素–开放世界对象查询、基于遮罩注意力的字幕分割和对象查询之间的对比度损失–能够检测和描述未知对象。

本文提出的 OW-VISCap 核心方法也适用于更通用的视频理解，并有潜力应用于现实世界，如自主系统和 AR/VR。细粒度视频理解（包括对未知物体的理解）是一项重要的研究挑战，而本文提出的方法可以为解决这一问题做出重大贡献。

关注

33
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

知来者逆 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。