Siamese FC

最新推荐文章于 2024-04-15 09:33:58 发布

compute visioner

最新推荐文章于 2024-04-15 09:33:58 发布

阅读量807

点赞数 1

分类专栏：目标跟踪

本文链接：https://blog.csdn.net/haockl/article/details/102703076

版权

目标跟踪专栏收录该内容

2 篇文章 0 订阅

订阅专栏

关于Siamese FC 的理解

摘要

1.传统上的目标跟踪解决：使用单一视频学习外观模型，（目标在视频会改变，特征也在改变特征提取太单一了）进行目标在线更新，这限制了学习模型的丰富性。2.决定采用深度学习的表达能力，但是深度学习在线更新时采用SGD更新权重，影响目标跟踪的速度。3.于是采用离线训练，即在测试的过程中，权重不会更新，训练就把它训练好，并且采用端到端方式（从输入一张图片到输出结果，不必借助中间的特征环节，方便，速度快），还采用了全卷积（就算搜索图片和目标图片大小不一致，也没有关系）和Siamese网络（共享权重，特征处理方式相同）

结构

在这里插入图片描述
Z:在测试中表示目标样本的第一帧，训练的话就是第T帧
X：搜索区域，它是以在scone map预测的最大分数为中心，映射到图片上还是255×255，如果超过图片，则需要用平均像素填充（可否考虑二者调过来，即训练的时候视频X的帧数不一定要在Z之后）
φ：代表相同的卷积操作，对应最后的卷积核。baseline的Alexnet(去掉padding）
*：代表目标样本的卷积核在模板样本图片上进行相似度量，结果输出为score map，相似度量函数：

                       f(z,x)=φ(z)∗φ(x)+b1

具体f如何度量未知，b1为score map的每个位置的具体值（没懂），不知道为什么加上去，分数都上升了？加强loss计算么？

假设（局限性）

1.Siamese全卷积假设：应该满足这样的变换，L(T)是变化操作，u代表搜索图片的各个位置，x代表搜索图片区域，
L(Tx)[u]=x[u-T]
代表着目标在搜索区域的平移操作假设
2.函数h是特征h(Lkτx)=L τ h(x）代表分数图与原图的操作
（这一块不太明白）
3.

训练损失函数

损失函数设计：
L(y,v)=log(1+exp(-yv))
其中y代表真实标签，v代表预测得到的分数，y只取1 和 -1，即是不是真实目标，判断的标准为

          Y=1,当k|U-C|<=R
          Y=-1,others

公式U代表分数图上的位置，C代表标签在score map的位置，K代表着步伐，即下采样的步伐，R是一个固定参数，通过设计会使损失函数最小。当然平均损失函数应该等于总的损失函数除以score map上的各个位置。

固定的图片大小尺寸

在训练的时候，对于目标模板，只需要以目标点为中心，裁剪127127的图片大小，而对于搜索样板，则之后的帧以目标为中心，裁剪255×255的图片大小，若超出图片范围，则用平均像素来填充。
s(w+2p)×s(h+2p)=A
上式代表了如何填充与缩放的细节,s为缩放细节，w\h分别为宽度和高度，p为padding，A为设计面积，准则是保持目标长宽比不变。

实验细节

1.梯度下降采用SGD
2.用高斯分布初始化参数（w）
3.训练50组，每个组有50,000个样本对(目标与对象对）
4.mini-batch等于8，每批有8对
5.学习率从10−2 衰减到 10−8 ，四次大循环
Tracking
1.初始目标的特征提取 φ(z) 只计算一次
2.用双三次插值将score map从 17×17 上采样到 272×272
3.对目标进行5种尺度来搜索（1.025{−2,−1,0,1,2} ）（应对目标变化太大的一个措施，相当于提取anchor 的操作）
4.目标图像在线不更新，因为对于CNN提取的是高层语义特征，不会像HOG或CN这些浅层特征苛求纹理相似度。（如跟踪目标是人，不论躺着或站着，CNN都能“认出来”这是人，而纹理特征如HOG或conv1可能完全无法匹配）
5.跟踪效率：3尺度86fps，5尺度58fps （NVIDIA GeForce GTX Titan X and an Intel Core i7-4790K at 4.0GHz）
————————————————
版权声明：本文为CSDN博主「六月的雨唯你」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/u013187057/article/details/84893307