一.算法原理
GOTURN(Generic Object Tracking Using Regression Networks)这个算法没有过多的图像处理过程,主要是利用了卷积神经网络的特性进行学习。其中网络的结构类似于孪生网络(Siamese Network),采用两输入的方式。通过输入前后两幅图像,输出目标的窗口(左上角坐标和右下角坐标)。
假设目标窗口的长宽分别是w和h,假设相邻两帧图像中目标的变化区域不大。对于第一帧图像,我们先人为设定目标区域中心点,然后利用窗口长宽设置跟踪窗口,为了更好的捕捉目标的变化,将将网络输入中的前后两帧中的目标搜索窗口扩大,具体方式见下图:
在本研究中选取k1=k2=2,可以发现如果目标出现突变,那么k值将需要取得很大,因此在平滑的变化场景中效果会更好。
其中,卷积层是采用的5层结构(这里的5层结构是参照了CaffeNet里面的结构,其中卷积层的激励函数都采用了relu激励函数,部分卷积层后面添加了池化层),而全连接层则是由3层,每层4096个节点,各层之间采用dropout和relu