视频分割 / 跟踪

1. SiamFC(目标跟踪)

出自论文《Fully-Convolutional Siamese Networks for Object Tracking》
Siamese Network 对两个不同输入,使用同一个网络结构提取特征,然后根据提取的特征计算两个输入的相似度关系。这为目标跟踪(VOT)任务提供了新的研究方向。即通过比较后续帧和第一帧标注的模板图像的相似度关系,完成同一个目标的持续跟踪任务(相似度得分最高的位置,即认为是跟踪的目标位置)。
在这里插入图片描述

2. SiamMask(目标跟踪&分割)

出自论文《Fast Online Object Tracking and Segmentation: A Unifying Approach》
相比较于SiamFC:
(1)用 depth-wise cross correlation 替换了SiamFC中简单的cross-correlation,从而得到一个高维的相似度响应图
(2)增加了mask分支,利用高维相似度响应图,在完成目标跟踪的同时,实现像素级别的目标分割(半监督视频分割,仅利用第一帧的标定框)
下图three-branch variant 和 two-branch variant 分别是在SiamRPN 和 SiamFC基础上改造而来。
在这里插入图片描述
在这里插入图片描述

3.RANet(视频分割)

出自论文:《RANet: Ranking Attention Network for Fast Video Object Segmentation》
通过对第一帧和后续帧进行像素级别的匹配,得到模板每个像素点的Similarity maps, 借助第一帧的标定mask, 将这些maps分为前景maps和背景maps, 因为不同video的前景背景像素数不一致,所以为了得到一个固定尺寸的前景和背景图尺寸,提出了RAM模块,即排序选择模块,通过评分机制,从高到低选择出固定大小的maps作为后续模块输入(多了就丢弃,少了就补0), 得分越高的map, 代表该像素点在当前帧的匹配程度越高。最后,融合前景背景排序选择后Similarity maps特征和上一帧的mask,共同给出当前帧的预测结果。
半监督视频分割(利用第一帧标定的mask), 同时结合了matching 和 Propagation 两大半监督视频分割主流方法,给出了更好的性能表现。
在这里插入图片描述
在这里插入图片描述

4.《Improving Semantic Segmentation via Video Propagation and Label Relaxation》

核心思想为通过video prediction方法合成image–label对,扩充训练数据集,同时使用边界标签relaxation提升标签边界质量。
在这里插入图片描述

5. UVA-Net(视频注意力预测)

出自论文:《Ultrafast Video Attention Prediction with Coupled Knowledge Distillation》
在这里插入图片描述
核心思想:借用知识蒸馏技巧实现模型压缩
具体的,两个teacher model, 分别负责进行spatial和temporal预测,一个student model,附有两个分支,在对应teacher model的预测结果的指导下进行spatial和temporal预测,完成知识蒸馏过程。
为了进一步融合spatial和temporal特征,提升预测结果,设计了spatiotemporal model, 其结构与student model基本一致,只是后面对两个分支特征进行concatenate融合后给出最终预测。
在这里插入图片描述
其中的CA-Res 模块如下所示:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值