视频对象分割论文解读系列【2】

最新推荐文章于 2024-12-22 09:30:00 发布

JintuZheng

最新推荐文章于 2024-12-22 09:30:00 发布

阅读量435

点赞数

分类专栏：视频对象分割论文解读

本文链接：https://blog.csdn.net/rizero/article/details/104756431

版权

视频对象分割论文解读专栏收录该内容

2 篇文章

订阅专栏

此处最后解读数据库更新时间：2020-3-09
备注：无

1. 论文：Instance-level VOS-MOT

原题《Instance-level video segmentation from object tracks》

总印象：使用了目标追踪作为弱指导，对超像素聚类和跟踪。

效果
在这里插入图片描述

论文的贡献
提出了一种判别式聚类方法（对超像素块聚类），该方法使用“对象包围盒”进行实例级视频分割。

思路方法
首先提取视频超像素。对超像素及时跟踪（在文中的3.1，这里我没详细看）。使用从超像素轨道获得的时间链接作为超像素图中的边缘。如果光流提供了足够的逐像素对应关系，还将在连续帧的超像素之间添加边缘。

2. 论文：CDTS-MOS（协同检测、跟踪和分割-多对象分割任务）

原题《 Collaborative Detection, Tracking, and Segmentation for Online Multiple Object Segmentation in Videos》

总印象：整合借用了MOT（对物体追踪的技术）

情报

从2017年的视角来看（截至该文发表时间）：目前的MOS主流算法：需要视频中的全部信息来实现分割，这些算法从所有帧中收集运动轨迹或区域提议，然后将它们分为多个部分。这样的MOS算法会产生多个轨迹。对视频中的点轨迹进行聚类的运动分割，每个运动段成为一个段轨迹，有其他的方法是采用归一化的分割把有运动物体的帧先区分出来。
视频对象分割（VOS）可以分为三类：半监督 VOS，单个VOS和MOS
Single-VOS：其中主要对象是指视频中出现频率最高的对象
基于运动对象的MOS算法（比如单一使用光流信息，比如下面的论文3）的缺陷：不能有效地分割静态对象。

效果
在这里插入图片描述
实现概述
第一，将检测器和跟踪器联合使用以生成目标（objects）的多个边界框轨迹。
第二，通过使用ASE（alternate shrinking and expansion）分割技术将每个边界框转换成为一种像素级别的分割。
第三，精细化分割轨迹，方法是检测物体的消失和再现的情况，并且将重叠的分割轨迹进行合并。

3. 论文：Learning Moving Objects（对移动物体分割改进）

原题《Learning to Segment Moving Objects in Videos》

总印象：文章提出了很多让人费解的概念。他想改进对#移动物体对象#分割的效果，注意是#移动物体#，和传统任意对象分割有区别。

不确定的论文贡献概述：
文中所说：“改进对移动物体对象分割的效果”。说实话此文没有太冲击眼球的东西，还有很多他自己提出来的新概念，感觉相当模糊和晦涩难懂，论文所写的代码地址已经404了，下面只能通过脑补来描述。我个人理解文章想改进的是：以往我们在通过光流检测移动物体来进行对象分割的时候光流的结果可能并不那么明显，比方说（我个人经验）对一位移动的运动员进行分割，他挥动球拍的上半身可能移动程度相当厉害，但他的下半身的某一只脚移动的没那么厉害，就会导致光流图上半身很明显，下半身就若隐若现。
（此图是我加上去的，论文原文没有的）
在这里插入图片描述
他通过整合静态的边缘检测和光流数据而得到一个更加准确的“移动物体轮廓提议”（他在原文一直用proposal这个词）。

在这里插入图片描述
关于文中提到超体素（ supervoxel ）这个词，一般是用在三维点云聚类里面的，不知为什么他在文中大量使用，有点莫名其妙，查阅资料感觉没有相关的说明。我个人猜测可以理解位一个类似超像素功效的像素块吧。
在这里插入图片描述
对于超体素整合处理，每个tube会得到一个预测可能评分。
整体处理架构

4. 论文：Interactive VOS (Wild)（交互分割）

原题：《Interactive Video Object Segmentation in the Wild》

总印象：论文摘要中有一句话：“在GrabCut 数据集上，我们的方法平均只需3.8 次点击即可获得 90 ％的 IOU”，强调他的单帧效果。虽然题目写着Video，但文章却没有体现出 “Video” 这个点上，交互方式所用的思想在现在看来也没什么特色，唯一可以研究一下的他的高斯编码那部分。

效果
在这里插入图片描述
论文贡献概述：

提出一种用于深度交互式对象细分的新颖方法，该方法通过使用单击的用户输入来迭代优化。
对该方法进行了全面的实验评估。

情报

2016-2017年的时候交互式的VOS的方法曾经流行
他把用户点击的信息编码之后送进了网络进行训练，也就是把用户的交互信息作为输入的一部分。编码方法：
文章提及手动收集用户的交互信息很困难，所以他们利用像素点位置对对象内随机模拟交互（就是模拟随机点）
全文没有说过使用的网络结构，本文把自己的特色强调在：使用单击和高斯编码还有把用户信息传进网络训练上面。对单帧的分割效果应该是不错的。文章关于对视频处理的大致想法应该是：对每一帧都进行用户交互，从而完成任务。考虑到这篇文章发表的年份是2016-2017年。

5. 论文：MOTS（多物体追踪和分割任务）

原题：《MOTS：Multi-Object Tracking and Segmentation》

总印象：一个方法同时完成多对象追踪、分割和检测任务，体现了当下流行融合多任务的新思想趋势，并且提出新的数据集，文中所提出的新方法TrackR-CNN是典型MaskR-CNN方向的研究方向分支。同时，文章提出的TrackR-CNN很充分的利用了时序信息。

论文贡献概述：

基于流行的 KITTI 和MOTChallenge数据集（自动驾驶研究的常用数据集，主要是街景和行人）而提供了新数据集，用于训练和评估，来完成MOTS任务（MOTS即“多对象追踪和分割”）。
提出了新的度量标准，（MOTSA 和sMOTSA指标）该度量可用于同时评估任务的各个方面。
提出Track-R-CNN，该方法共同解决多对象检测，跟踪和分割问题（ TrackR-CNN通过3D卷积扩展了Mask R-CNN）。
证明了新数据集（KITTI MOTS）对于像素级多对象跟踪器的端到端训练的有用性。

情报

制作新的数据集的方法：先用静态的Deeplabv3生成大致的蒙版，再去人工修正。
TrackR-CNN的网络架构：

网络解读（仅个人见解）：
我们可以把处理某一帧的所有工序当成一次处理，每一次处理的输入端有三个，分别是“前一帧”，“当前帧”，“后一帧”，然后分别对三帧进行一次特征提取处理，文中的backbone用的是Resnet-101，需要注意的是在特征提取的时候会权重共享，可以看出这一步并不涉及时序信息的整合，可以理解为是对三个输入分别进行的预处理。预处理完之后使用3D_conv来进行时序信息整合，卷积核大小=[3,3,3]，得到时间增强图像特征（图中的Temporally Enhanced Image Features）。对TEIF特征图使用区域建议网络处理(RPN，具体看下面的Region proposal network图，注意此图不是本文的图片，来源于FasterR-CNN用于目标检测的经典网络，同时也是MaskRCNN的重要部件）

RPN处理之后给出四种输出，四种输出分别对应不同的Loss，这四种输出分别是：目标矩形Box，分割蒙版Mask，每个对象的分类检测Classic，RPN之后的特征图结果。计算Loss的时候首先用单帧的分割结果反馈到前三种的输出上去进行反向传播，还用连续的帧序列分割结果对从历史开始到现在帧进行Loss计算，并对所有的历史结果进行反向传播。可以看出他很充分地利用了整个视频的时序信息。