【阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach

最新推荐文章于 2021-04-09 20:52:09 发布

机器视觉-zjuer

最新推荐文章于 2021-04-09 20:52:09 发布

阅读量1.9k

点赞数 2

分类专栏：机器学习文章标签：目标跟踪 object tracking

本文链接：https://blog.csdn.net/u014410989/article/details/89489289

版权

机器学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach

论文的主要创新点

物体发生旋转的时候，简单的 box 的表述通常会产生极大的损失，这实际上就是表述本身存在的缺陷。SiamMask直接预测物体的 mask。这种表述使得我们可以得到最为准确的 box。下面这个事例可以直观的看出这三种算法的区别（左中右分别是SiamFC | SiamRPN | SiamMask）。
在这里插入图片描述

论文和代码下载地址

SiamMask: Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr.
“Fast Online Object Tracking and Segmentation: A Unifying Approach.” CVPR (2019). [paper] [project] [code]

作者解读

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

技术演进路线

在这里插入图片描述

ECO: Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, Michael Felsberg. “ECO: Efficient Convolution Operators for Tracking.” CVPR (2017). [paper][supp][project][github]
MDNet: Nam, Hyeonseob, and Bohyung Han.
“Learning Multi-Domain Convolutional Neural Networks for Visual Tracking.” CVPR (2016). [paper] [VOT_presentation] [project] [github]
SiamFC: Luca Bertinetto, Jack Valmadre, Jo茫o F. Henriques, Andrea Vedaldi, Philip H.S. Torr.
“Fully-Convolutional Siamese Networks for Object Tracking.” ECCV workshop (2016). [paper] [project] [matlab代码-github][TensorFlow 代码及注解]
SiamRPN: Bo Li, Wei Wu, Zheng Zhu, Junjie Yan.
“High Performance Visual Tracking with Siamese Region Proposal Network.” CVPR (2018 Spotlight). [paper][论文阅读笔记1][论文阅读笔记2] [论文介绍] [大话目标检测经典模型（RCNN、Fast RCNN、Faster RCNN）]
SiamMask: Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr.
“Fast Online Object Tracking and Segmentation: A Unifying Approach.” CVPR (2019). [paper] [project] [code]
孪生神经网络: 孪生神经网络的简介

算法详解

在这里插入图片描述

详情参考：https://blog.csdn.net/qq_37392244/article/details/88569554
一、RoW的意义

用ResNet-50前面4个卷积层作为f(θ) 的主干部分，网络结构如下图所示。通过卷积神经网络的处理，各自得到不同大小的256张图。RoW表示的是上面得到的两张图经过depth-wise（深度卷积）方式处理过后的每一个候选窗口的响应，维度是11256，一共有17*17个RoW。

在这里插入图片描述

二、如何得到mask

对于每一个RoW，用两层的网络h∅去预测出wh个二值掩码mask，经过处理得到1717个6363大小的分割（对应于1717个RoW）。如下面公式所示，mn 表示对于第n个RoW经过h∅ 处理之后的mask。给定不同的z，网络会得到不同的分割。
在这里插入图片描述

由网络结构图可以看到，每一个RoW对应生成的mask是一个11(63*63)的向量，我们将其展平，得到的mask图像是非常粗糙的，而且尺寸也小于原图。因此，后面其实还有一个上采样和调整的过程，文中说为了简洁性，没有在图中画出，而是放到了不中材料里面。如下图所示：

在这里插入图片描述
网络结构是一个u-shape的结构，结合了backbone的feature map，进行上采样得到了更加精细的分割结果。
详细介绍可以参考：https://blog.csdn.net/hey_youngman/article/details/88751952

为了更精细的分割，SiamMask借鉴了下面这个参考文件中的思路。
[50] P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dollar. Learn- ´
ing to refine object segments. In European Conference on
Computer Vision, 2016. 4, 7, 9 [paper] [code] [论文阅读笔记]

机器视觉-zjuer

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach

【阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach论文和代码下载地址SiamMask: Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr. “Fast Online Obje...
复制链接

扫一扫

专栏目录