【视频目标分割】PReMVOS论文理解

最新推荐文章于 2021-03-26 16:24:53 发布

KirutoCode

最新推荐文章于 2021-03-26 16:24:53 发布

阅读量1.2k

点赞数 1

分类专栏： VOS

本文链接：https://blog.csdn.net/McEason/article/details/104531374

版权

PReMVOS论文理解

本文创新点\贡献
方法
实验结果
总结

本文创新点\贡献

效果最好，但也最麻烦，用了很多的预训练操作

方法

在这里插入图片描述

在这里插入图片描述
使用目标检测网络来代替检测ROI，以此来获得一个粗到的目标推荐，然后只在裁剪并resize的bbox上做分割，再用聚合算法结合物体分数，光流，Re-ID特征嵌入向量，空间约束，对第一帧的每个物体进行追踪，最终根据追踪分数来做mask

Image Augmentation

每个video使用第一帧的ground truth生成2500个增强的图片，使用的 Lucid Data Dreaming方法，只是生成单个图片，将物体裁剪出来，随机加上背景，然后微调这些数据，效果会更好

Proposal Generation

使用Mask RCNN来生成粗糙的目标推荐，将网络设置成了类别未知，将N类别换成了1类别，通过将所有的类别映射到一个单一的前景类别来检测一般的物体

只要识别有没有就行了，不管分类，应该能更好的抓取物体

从COCO和Mapillary上得到预训练权重ImageNet，然后用增强的2500个图片做3个epoch来微调网络，生成粗糙mask、bbox、物体分数，设置分数为0.05的阈值，IoU为66的NMS

Proposal Refinement

原理：

微调网络只提取每个物体的interest区域的深层特征，而不是全部图片，能捕捉更多的边缘纹理；
能复原在粗糙的推荐中的失去的部分，因为只输入了粗糙的bbox，舍弃了粗糙mask，只利用继承自object的信息来生成更好的mask
有时候bbox不能覆盖全部物体，所以就扩大了50像素

跟我们之前讨论的方法基本一样

操作：
输入是 $385 \times 385$ 的图像，从上一环节的bbox里抠出来的，在bbox的框的所有方向都加了50像素的空白，又加了个第四通道，编码原来的bbox作为像素mask，放到第四个通道里

bbox的mask，在DeepIM里也用到过

然后做了数据增强，每个维度最多5%的抖动，再做5个epoch来微调

只输入这些推荐的bbox，把自己生成的粗糙mask扔掉，然后使用网络对之前的粗糙的推荐生成精准的像素mask推荐

在这里插入图片描述

Mask Propagation using Optical Flow

聚合的一部分：使用连续图像pair之间的光流来将推荐的mask翘曲到下一个帧，来计算两个mask推荐的时序连续，使用FlowNet 2.0来计算光流。

光流还有这功能，有点厉害

ReID Embedding Vectors

还是使用基于ReID 嵌入网络的triple-loss来给每个mask推荐计算ReID嵌入向量。
特征嵌入网络用的是这个：Large-scale object discovery and detector adaptation from unlabeled video.也是预训练了，用的都是裁剪到 $128 \times 128$ 的图片预训练的。

然后再微调，最后生成特征向量，能比较相似性。

在这里插入图片描述