github疯狂涨星-FEELVOS用于视频目标分割的快速端到端嵌入学习

图片

表1:该表显示了我们的哪些设计目标(在本文中有更详细的描述)是通过最近的方法实现的。我们的方法是唯一能够实现所有设计目标的方法。

摘要:许多最近成功的视频对象分割(VOS)方法过于复杂,严重依赖于对第一帧的微调,或速度较慢,因此实际应用有限。在这项工作中,我们提出FEELVOS方法。FEELVOS是一种简单快速的方法,不依赖于微调。为了分割视频,对于每一帧,FEELVOS使用语义像素嵌入全局和局部匹配机制将信息从视频的第一帧和前一帧传输到当前帧。与以前的工作相比,我们的嵌入仅用作卷积网络的内部指导。我们的新型动态分割头部允许我们训练网络,包括嵌入,端到端的多目标分割任务,具有交叉熵损失。我们在DAVIS 2017验证集上采用71:5%的J&F度量,实现了无需微调的视频对象分割的最新水平。

图片

FEELVOS方法概述。为了分割当前帧的图像,提取骨架特征和像素嵌入向量。然后,将嵌入向量全局匹配到第一帧,并局部匹配到前一帧,以生成全局和局部距离映射。这些距离图与主干特征和前一帧的预测相结合,然后反馈到动态分割头部,该头部产生最终分割。有关多个目标处理见图3。

图片

全局和局部匹配。对于给定对象(在本例中为鸭子),全局匹配将当前帧的嵌入向量与属于该对象的第一帧的嵌入向量相匹配,并生成距离贴图。深色表示距离较短。请注意,全局距离贴图有噪声,并且在水中包含一定的错误。局部匹配用于将当前帧嵌入与属于对象的前一帧嵌入进行匹配。对于本地匹配,仅允许在像素周围的本地窗口中匹配像素。

图片

动态分割头部,用于系统处理多个对象。轻量级分割头部为视频中的每个对象动态实例化一次,并为每个对象生成Logit的一维特征图。然后将每个对象的logit堆叠在一起,并应用softmax。动态分割头部可以用标准的交叉熵损失进行训练。

实验结果:

图片

微信公众号:

图片

下载对应的论文,在公众号中回复:FEELVOS

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值