github疯狂涨星-FEELVOS用于视频目标分割的快速端到端嵌入学习

最新推荐文章于 2024-09-11 08:51:19 发布

元宇宙MetaAI

最新推荐文章于 2024-09-11 08:51:19 发布

阅读量487

点赞数

分类专栏：周末时光-我的有趣灵魂文章标签：视频分割

本文链接：https://blog.csdn.net/css360/article/details/120390349

版权

周末时光-我的有趣灵魂专栏收录该内容

35 篇文章 11 订阅

订阅专栏

表1：该表显示了我们的哪些设计目标（在本文中有更详细的描述）是通过最近的方法实现的。我们的方法是唯一能够实现所有设计目标的方法。

摘要：许多最近成功的视频对象分割（VOS）方法过于复杂，严重依赖于对第一帧的微调，或速度较慢，因此实际应用有限。在这项工作中，我们提出FEELVOS方法。FEELVOS是一种简单快速的方法，不依赖于微调。为了分割视频，对于每一帧，FEELVOS使用语义像素嵌入全局和局部匹配机制将信息从视频的第一帧和前一帧传输到当前帧。与以前的工作相比，我们的嵌入仅用作卷积网络的内部指导。我们的新型动态分割头部允许我们训练网络，包括嵌入，端到端的多目标分割任务，具有交叉熵损失。我们在DAVIS 2017验证集上采用71:5%的J&F度量，实现了无需微调的视频对象分割的最新水平。

FEELVOS方法概述。为了分割当前帧的图像，提取骨架特征和像素嵌入向量。然后，将嵌入向量全局匹配到第一帧，并局部匹配到前一帧，以生成全局和局部距离映射。这些距离图与主干特征和前一帧的预测相结合，然后反馈到动态分割头部，该头部产生最终分割。有关多个目标处理见图3。

全局和局部匹配。对于给定对象（在本例中为鸭子），全局匹配将当前帧的嵌入向量与属于该对象的第一帧的嵌入向量相匹配，并生成距离贴图。深色表示距离较短。请注意，全局距离贴图有噪声，并且在水中包含一定的错误。局部匹配用于将当前帧嵌入与属于对象的前一帧嵌入进行匹配。对于本地匹配，仅允许在像素周围的本地窗口中匹配像素。