前几天看了一篇《Video-based Person Re-identification with Accumulative Motion Context》,里面提到了这篇论文作为它的baseline,今天找来这篇来读。
本篇论文是2016年CVPR上的论文,当时声称是第一篇将深度网络用于行人重识别任务上。
和这篇论文后来的发展不同,这篇论文对于单帧图片的特征提取只使用了一个CNN网络,对于帧与帧之间的联系,只依靠RNN来联系帧与帧之间的关系。
在输入端,输入的是3通道彩色图像和光流法处理后的2通道图。CNN结构比较简单,这里不重复描述。
最后输入o(t)之后,经过分类损失和孪生网络损失得到最后的损失。
实验细节上,孪生网络的边界m设置为2,随机梯度下降法的学习率为0.001,输出o的维度为128.