SiamMask:Fast Online Object Tracking and Segmentation: A Unifying Approach

最新推荐文章于 2021-07-04 18:05:05 发布

echo_hao

最新推荐文章于 2021-07-04 18:05:05 发布

阅读量1.5k

点赞数 3

文章标签：计算机视觉深度学习目标跟踪 SiamMask

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37392244/article/details/88569554

版权

SiamMask一种实时的同时进行视频跟踪和分割的方法。

SiamMask的算法流程图如上图所示：

该算法的输入是两张图片，一张的模板图片，还有一张是待检测的图片。

一、RoW的意义

用ResNet-50前面4个卷积层作为f(θ) 的主干部分，网络结构如下图所示。通过卷积神经网络的处理，各自得到不同大小的256张图。RoW表示的是上面得到的两张图经过depth-wise（深度卷积）方式处理过后的每一个候选窗口的响应，维度是1*1*256，一共有17*17个RoW。

二、如何得到mask

对于每一个RoW，用两层的网络h∅去预测出w*h个二值掩码mask，经过处理得到17*17个63*63大小的分割（对应于17*17个RoW）。如下面公式所示，mn 表示对于第n个RoW经过h∅ 处理之后的mask。给定不同的z，网络会得到不同的分割。

三、mask的损失函数

在训练的过程中，每一个RoW被赋予ground-truth 二进制标签yn ，来表示它是否属于这一类别，这个标签和第n个mask的标签cn 有关系。cnijϵ{+1,-1} 就表示在第n个RoW对应产生的mask中每一个元素的标签。损失函数的公式如下所示：

四、如何得到mask

流程图如下图所示。每一个RoW都通过反卷积得到其对应的mask。

五、该模型的两种形式

对于下面公式提到的L3B ，一个RoW的标签yn=+1 的时候，它的一个anchor框和实际的框IOU值大于0.6，其他情况标签为-1。对于L2B 来说，标签也这样做。

六、如何生成框

有下面几种策略生成框。

七、如何得到分数和box

对于每一个1*1*256维度的RoW，经过conv5可以得到1*1维度的响亮，然后经过conv6可以得到1*1*2k维度的分数和1*1*4k维度的box。如下图所示：

八、实验

九、论文分析

将目标跟踪和分割结合起来，将分割作为一个分支并入到整个网络结构当中，具有比较快的速度。

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
SiamMask:Fast Online Object Tracking and Segmentation: A Unifying Approach

SiamMask一种实时的同时进行视频跟踪和分割的方法。SiamMask的算法流程图如上图所示：该算法的输入是两张图片，一张的模板图片，还有一张是待检测的图片。一、RoW的意义用ResNet-50前面4个卷积层作为f(θ) 的主干部分，网络结构如下图所示。通过卷积神经网络的处理，各自得到不同大小的256张图。RoW表示的是上面得到的两张图经过depth-wise（深度...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。