Siam-RPN
1. 研究动机:
在Siam-FC中,作者提出的算法首次将孪生网络引入了目标跟踪的领域,实现了端到端的训练,它是一个兼容了速度和精度的算法,在3个尺度变换和5个尺度变换的条件下,跟踪的速率分别达到了86 fps和58 fps。
Siam-FC需要多尺度测试,在跟踪阶段分别生成不同尺度的搜索框,进行跟踪,选取得分结果最好的作为跟踪结果。
Siam-FC没有做回归去调整候选框的位置。
本篇论文提出的Siam-RPN可以说是对Siam-FC的改进,在速度和精度上都有提升。速度上达到了160 FPS,而RPN子网络进一步提升了对目标框预测的准确度。
2. 网络结构:
2.1 RPN网络:
首先看一下RPN网络,RPN网络是在Faster-RCNN中提出的代替了ss算法用来提取目标候选框的。
上图展示了RPN网络的具体结构。可以看到RPN网络实际分为2条分支,上面一条通过softmax分类anchors获得positive和negative分类,下面一条分支用于计算对于anchors的bounding box regression偏移量,以获得精确的proposal。而最后的Proposal层则负责综合positive anchors和对应bounding box regression偏移量获取proposals,同时剔除太小和超出边界的proposals。
具体的实现: 对于前面一个步骤通过特征提取网络得到的特征图,采用3 * 3大小的卷积核,同时padding=1来进行卷积操作。
如何选定Anchor?
对于特征图上的每一个点,我们可以计算出对应于原图的位置,然后生成9种anchor(这些anchor分别代表不同的大小和比例,大小有:[128 * 128,256 * 256, 512 * 512],比例有:[1 : 1、1 : 2、2 : 1])。然后我们可以根据anchor和ground_truth的IoU值来给anchor打上正负样本的标签。注意,这里生成的anchor特别多,在实际训练的时候一般是随机选取指定数量的anchor,比如:选取256个anchor,其中正负样本比例为1 : 1。
如何计算特征图中某一点和原图的位置对应关系?
特征图中的某一个点,对应的就是原图中某一个区域,也就是我们说的感受野大小,如果我们使用3 * 3的卷积核,同时pa