训练过程
训练过程,网络的最终输出是 17×17 的response map.
网络的输入
需要保证两条支路上目标物体在输入图片的中心位置,且目标物体在整幅图像中有一定的占比。
对于模板图片
模板图片大小: 127×127×3。以目标中心为裁剪中心,确定一个稍大的正方形(记边长为 C )裁剪区域(可能会超出原图片,以图片颜色均值填充),然后再将裁剪区域resize到127×127大小。根据paper,C 的计算公式如下(设目标框的大小为w×h):
$$
\begin{array}{ll}
w’ =w+(w+h)·0.5 \\
h’ =h+(w+h)·0.5 \\
C = \sqrt{w’*h’}
\end{array}
$$
对于搜索图片
搜索图片大小:255×255×3。以目标中心为裁剪中心,需要先确定上面的 C ,然后在按比例(127:255)确定搜索图片的正方形裁剪区域边长 C‘。
训练的细节
维度问题
具体实现上,卷积后的通道数和paper描述的不同。
卷积操作
训练batch中每个输入样本对的卷积操作可以用groups参数实现。
batch norm
添加 batch norm 层,否则loss会出现nan的情况。要对其进行初始化。
label
训练网络的输出是一个 17×17 的 2D response. 由于SiamFC是全卷积网络,所以不用关心物体在图片中的位置&#