Siamese-RPN阅读笔记

最新推荐文章于 2021-12-26 18:09:45 发布

azhimei1545

最新推荐文章于 2021-12-26 18:09:45 发布

阅读量365

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/liualexsone/p/11366587.html

版权

High Performance Visual Tracking with Siamese Region Proposal Network

这篇文章借鉴了Siamese FC和RPN，将Siamese网络和RPN网络结合起来实现Visual Object Tracking。

Visual Object Tracking：给定第一帧中物体的ground truth，在接下来的帧中找到该物体并标出bounding box。

Siamese-RPN流程：

Siamese-RPN由两部分组成，一部分是Siamese网络，用来提取模板帧（本文中是第一帧）和检测帧（第二帧到最后一帧）的特征，使用的是AlexNet（只有前面几层，没有fc层）。至于为什么使用AlexNet本文没有说，但是作者肯定尝试过其他网络，比如VGGNet和GoogLeNet，发现结果可能还没有AlexNet好。在CVPR2019中有一篇论文是《Deeper and Wider Siamese Networks for Real-Time Visual Tracking》，对这一问题作出了阐释。在经过AlexNet后分别得到了6*6*256和22*22*256的特征图。其中Siamese部分的参数是共享的。第二部分是RPN网络，主要用来分类和anchor回归的。模板帧的feature map经过两个3*3的卷积核后出现了2个分支，一个是4*4*256*2k，用来分类；一个是4*4*(256*4k)，用来回归，其中k是anchor的个数。同样检测帧的feature map也是经过3*3的卷积分别得到了20*20*256和20*20*256的两个分支。接下来使用模板帧的特征图当做卷积核对检测帧的特征图进行卷积操作（互相关），最后分别得到17*17*2k和17*17*4k的特征图。其中2k是指有特征图的每个pixel有k个anchor，每个anchor中是否有物体的概率，故是2k；4k是指每个anchor经过回归后与ground truth之间的距离，用dx,dy,dw,dh表示。

在训练这个RPN网络时，和Faster R-CNN差不多。分类loss用交叉熵损失，回归loss用经过坐标归一化的smooth L1表示。

Siamese-RPN的训练细节：

　　在训练阶段，样本对随机的从ILSVRC中挑取，在Youtube-BB中连续抽取，但是模板帧和检测帧必须从同一个视频中抽取。该网络先在ImageNet中预训练，然后使用SGD训练，在训练时使用了数据增强。在RPN阶段作者假定相邻两帧之间物体并不会变化太大，故对于anchor只使用了一种scale，但是使用了不同的比例。在选取样本时，作者认为anchor与gt的IOU大于0.6为正样本，小于0.3为负样本。在一对训练样本中共选取64个样本，其中正样本为最多为16个。

one-shot detection:

　　首先解释下什么是one-shot：one-shot是指在样本的个数很少，甚至只有一个样本的情况。

　　在training时，除了bounding box外不需要任何监督数据。而在inference阶段，首先将第一帧的目标送入模板分支，获得用于和检测分支卷积（互相关）的卷积核（包含物体类别信息），然后将模板分支去掉，只剩下检测分支。将第二帧到最后一帧依次送入检测分支，这样Siamese-RPN就变成了one-shot detection task。由于只用到了第一帧，故可以看成是one-shot detection。

proposal selection：为了使得one-shot detection framework适合于跟踪任务，作者提出了两点策略来挑选候选框。

舍弃掉那些与中心点距离太远的bounding box。作者认为相邻帧之间不太可能会有太大的运动。
使用余弦窗和尺度变换惩罚来对proposal重新排序来获得最好的。余弦窗是用来抑制较大的位移的。

在经过上面的操作后，先将分类分数和时间惩罚（？）相乘，然后前K个proposal将会重新排序。接下来NMS会作用到这些bounding box来得到最后的用于跟踪的bounding box。在选定最后的bounding box后，目标（bounding box）的大小会根据线性插值来更新用于保持形状连续的变化。

实验：没啥好说的。各项指标领先的同时，速度方面领先其他方法很多。

其它：

实验证明Siamese-RPN的数据规模越大，效果越好。
作者在anchor的设置上使用了固定的scale，但使用了不同的ratio。作者分别尝试了3、5、7个ratio，实验证明5个比3个好，但7个比5个差。作者认为差的原因是由于过拟合。之后使用了更多的训练数据后，效果变好了点。

结论：作者提出了Siamese-RPN网络，这是个端到端的离线训练的网络。Siamese-RPN在经过bounding box坐标修正后精度得到了很大的提升。在跟踪阶段，Siamese-RPN可以看成是local one-shot detection task。实验证明，Siamese-RPN不但性能领先，而且速度实时，达到了160FPS。

转载于:https://www.cnblogs.com/liualexsone/p/11366587.html

azhimei1545

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Siamese-RPN阅读笔记

High Performance Visual Tracking with Siamese Region Proposal Network这篇文章借鉴了Siamese FC和RPN，将Siamese网络和RPN网络结合起来实现Visual Object Tracking。Visual Object Tracking：给定第一帧中物体的ground truth，在接下来的帧中找到该...
复制链接

扫一扫