视频分割 / 跟踪

最新推荐文章于 2024-08-28 09:04:44 发布

ReaFly

最新推荐文章于 2024-08-28 09:04:44 发布

阅读量1k

点赞数

分类专栏：视频分析文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/qq_39191000/article/details/105168041

版权

视频分析专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. SiamFC（目标跟踪）

出自论文《Fully-Convolutional Siamese Networks for Object Tracking》
Siamese Network 对两个不同输入，使用同一个网络结构提取特征，然后根据提取的特征计算两个输入的相似度关系。这为目标跟踪（VOT）任务提供了新的研究方向。即通过比较后续帧和第一帧标注的模板图像的相似度关系，完成同一个目标的持续跟踪任务（相似度得分最高的位置，即认为是跟踪的目标位置)。
在这里插入图片描述

2. SiamMask（目标跟踪&分割）

出自论文《Fast Online Object Tracking and Segmentation: A Unifying Approach》
相比较于SiamFC:
（1）用 depth-wise cross correlation 替换了SiamFC中简单的cross-correlation，从而得到一个高维的相似度响应图
（2）增加了mask分支，利用高维相似度响应图，在完成目标跟踪的同时，实现像素级别的目标分割（半监督视频分割，仅利用第一帧的标定框）
下图three-branch variant 和 two-branch variant 分别是在SiamRPN 和 SiamFC基础上改造而来。
在这里插入图片描述

3.RANet（视频分割）

出自论文：《RANet: Ranking Attention Network for Fast Video Object Segmentation》
通过对第一帧和后续帧进行像素级别的匹配，得到模板每个像素点的Similarity maps, 借助第一帧的标定mask, 将这些maps分为前景maps和背景maps, 因为不同video的前景背景像素数不一致，所以为了得到一个固定尺寸的前景和背景图尺寸，提出了RAM模块，即排序选择模块，通过评分机制，从高到低选择出固定大小的maps作为后续模块输入(多了就丢弃，少了就补0), 得分越高的map, 代表该像素点在当前帧的匹配程度越高。最后，融合前景背景排序选择后Similarity maps特征和上一帧的mask，共同给出当前帧的预测结果。
半监督视频分割（利用第一帧标定的mask), 同时结合了matching 和 Propagation 两大半监督视频分割主流方法，给出了更好的性能表现。
在这里插入图片描述

4.《Improving Semantic Segmentation via Video Propagation and Label Relaxation》

核心思想为通过video prediction方法合成image–label对，扩充训练数据集，同时使用边界标签relaxation提升标签边界质量。
在这里插入图片描述

5. UVA-Net（视频注意力预测）

出自论文：《Ultrafast Video Attention Prediction with Coupled Knowledge Distillation》
在这里插入图片描述
核心思想：借用知识蒸馏技巧实现模型压缩
具体的，两个teacher model, 分别负责进行spatial和temporal预测，一个student model，附有两个分支，在对应teacher model的预测结果的指导下进行spatial和temporal预测，完成知识蒸馏过程。
为了进一步融合spatial和temporal特征，提升预测结果，设计了spatiotemporal model, 其结构与student model基本一致，只是后面对两个分支特征进行concatenate融合后给出最终预测。
在这里插入图片描述
其中的CA-Res 模块如下所示：