摘要
行人重识别最主要的挑战就是由于视角变化而引起的类内变化。为了克服这一问题,本文进行了以下实现:
1. 提出了一种基于深度神经网络的框架,该框架利用特征提取阶段中的视图信息。
2. 所提出的框架为每个摄像机视图学习视图特定网络,其具有交叉视图欧几里德约束(CV-EC)和交叉视图中心损失。 我们利用CV-EC来减少不同视图之间的特征边缘,并将中心损失度量扩展到视图特定版本,以更好地适应重新定义问题。
3. 我们提出了迭代优化算法(ICV-ECCL)来交替学习CV-EC和CV-CL并优化视图特定网络的参数从粗到细。
传统的实现方式是首先使用同一网络来提取不同视觉下的共有特征,然后再使用度量学习或者视角不变的判定不变换来缩小类内差距,同时增大类间差距来实现行人重识别。
首先 ,只是用共同视觉特征在解决跨视角问题上有一定的不足,因此,还需要使用的特定视觉特征。
其次,特征提取和视觉不变模型是相互独立的,识别模型与特征提取模型很少联合起来一起提高特征提取过程。度量学习对于跨视角图像学习同一行人特征是非常困难的。
第三,传统的方法学习视觉不变模型用于所有的视角。特定视觉模型覆盖很多视觉相关信息(每个视角下都使用各自独立的网络),因此可以实现更好的效果。
因此,本文将基于学习特定视角的深度网络来实现行人重识别。
本文的主要贡献:
1. 提出了一种基于深度神经网络的框架,该框架利用特征提取阶段中的视图信息。
2. 所提出的框架为每个摄像机视图学习视图特定网络,其具有交叉视图欧几里德约束(CV-EC)和交叉视图中心损失。 我们利用CV-EC来减少不同视图之间的特征边缘,并将中心损失度量扩展到特定视图版本,以更好地适应行人重识别问题。
3. 我们提出了迭代优化算法(ICV-ECCL)来交替学习CV-EC和CV-CL并优化视图特定网络的参数从粗到细。
由于通过特定视角深度网络在提取与视觉相关的特征时,可能存在跨域视觉的类内特征 的距离很大,为了克服这种问题,需要考虑到跨域视觉约束。我们需要最小化特定视角特征对的类内跨域视觉距离。因此,本文加入了CV-EC来解决这一问题。
为了便于讨论,这里只考虑两个摄像头的情况,实际该模型可以扩展到多个摄像头场景中使用。
CV-EC
CV-EC的目的是为了最小化不同的特定视角网络下两个特征对跨视觉的类内距离。作者选择在最后的全连接层之间实现CV-EC度量,这样在提取low-level特征的同时提取 view-specific information 。本文通过联合softmax 损失和最小化的CV-EC来提取有区别的特征。具体公式为;
第 v 个视角的softmax损失:
Cross-View Center Loss 使用中心损失的原因是由于在同一时间序列中我们会捕获到多个
CV-CL的目标是惩罚深度特征与他们对应的特定视觉特征之间的距离。利用CV-CL可以缩小不同视角之间的间隙。
视图特定网络的参数首先由CV-EC或CV-CL优化,然后更新的模型用作其他交叉视图约束的初始化。
SGD算法 stochastic gradient-based 是从样本中随机抽出一组,训练后按梯度更新一次,然后再抽取一组,再更新一次,在样本量及其大的情况下,可能不用训练完所有的样本就可以获得一个损失值在可接受范围之内的模型了。
Iterative Optimization (ICV-ECCL)
此外,在统一框架中平衡视图特定网络和提出的交叉视图约束将是困难的,因为正则化系数的搜索空间将以二次方式增加。
Multi-View CV-EC and CV-CL
多视角应用中,分为两个网络,一个是特定视觉网络,一个是公共网络。其中公共网络的参数作为下次迭代的初始参数。