阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach
论文的主要创新点
物体发生旋转的时候,简单的 box 的表述通常会产生极大的损失,这实际上就是表述本身存在的缺陷。SiamMask直接预测物体的 mask。这种表述使得我们可以得到最为准确的 box。下面这个事例可以直观的看出这三种算法的区别(左中右分别是SiamFC | SiamRPN | SiamMask)。
论文和代码下载地址
- SiamMask: Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr.
“Fast Online Object Tracking and Segmentation: A Unifying Approach.” CVPR (2019). [paper] [project] [code]
作者解读
CVPR 2019:中科院、牛津等提出SiamMask网络,视频跟踪最高精度
技术演进路线
-
ECO: Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, Michael Felsberg. “ECO: Efficient Convolution Operators for Tracking.” CVPR (2017). [paper][supp][project][github]
-
MDNet: Nam, Hyeonseob, and Bohyung Han.
“Learning Multi-Domain Convolutional Neural Networks for Visual Tracking.” CVPR (2016). [paper] [VOT_presentation] [project] [github] -
SiamFC: Luca Bertinetto, Jack Valmadre, Jo茫o F. Henriques, Andrea Vedaldi, Philip H.S. Torr.
“Fully-Convolutional Siamese Networks for Object Tracking.” ECCV workshop (2016). [paper] [project] [matlab代码-github][TensorFlow 代码及注解] -
SiamRPN: Bo Li, Wei Wu, Zheng Zhu, Junjie Yan.
“High Performance Visual Tracking with Siamese Region Proposal Network.” CVPR (2018 Spotlight). [paper][论文阅读笔记1][论文阅读笔记2] [论文介绍] [大话目标检测经典模型(RCNN、Fast RCNN、Faster RCNN)] -
SiamMask: Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr.
“Fast Online Object Tracking and Segmentation: A Unifying Approach.” CVPR (2019). [paper] [project] [code] -
孪生神经网络: 孪生神经网络的简介
算法详解
详情参考:https://blog.csdn.net/qq_37392244/article/details/88569554
一、RoW的意义
用ResNet-50前面4个卷积层作为f(θ) 的主干部分,网络结构如下图所示。通过卷积神经网络的处理,各自得到不同大小的256张图。RoW表示的是上面得到的两张图经过depth-wise(深度卷积)方式处理过后的每一个候选窗口的响应,维度是11256,一共有17*17个RoW。
二、如何得到mask
对于每一个RoW,用两层的网络h∅去预测出wh个二值掩码mask,经过处理得到1717个6363大小的分割(对应于1717个RoW)。如下面公式所示,mn 表示对于第n个RoW经过h∅ 处理之后的mask。给定不同的z,网络会得到不同的分割。
由网络结构图可以看到,每一个RoW对应生成的mask是一个11(63*63)的向量,我们将其展平,得到的mask图像是非常粗糙的,而且尺寸也小于原图。因此,后面其实还有一个上采样和调整的过程,文中说为了简洁性,没有在图中画出,而是放到了不中材料里面。如下图所示:
网络结构是一个u-shape的结构,结合了backbone的feature map,进行上采样得到了更加精细的分割结果。
详细介绍可以参考:https://blog.csdn.net/hey_youngman/article/details/88751952
为了更精细的分割,SiamMask借鉴了下面这个参考文件中的思路。
[50] P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dollar. Learn- ´
ing to refine object segments. In European Conference on
Computer Vision, 2016. 4, 7, 9 [paper] [code] [论文阅读笔记]