检索的原则:与被检索图像正确匹配的图像应在整个检索库中排名靠前。提出了一个排名模型,使用深度CNN构建输入图像对于相似度得分之间的关系。在训练阶段,将标记的数据放到ranking units中,每个包含一个probe和对应的检索集。深度网络学习这么一个关系:为正确的匹配分配最高的相似度得分。
相关研究:
A.行人检索
设计的特征:Ensemble of Localized Features (ELFs),Symmetry-Driven Accumulation of Local Features (SDALF),Custom Pictorial Structure (CPS)
Metric Learning: ensemble RankSVM,Pairwise Constrained Component Analysis (PCCA), Mahalanobis metric for Large Margin Nearest Neighbor classification with Rejection (LMNN-R), Relative Distance Comparison (RDC), Locally-Adaptive Decision Function (LADF)
B.深度学习
1. Discriminative Deep Metric Learning (DDML) method for face verification
2. Siamese CNN with a symmetry structure,DML approach for reidentification
3. FPNN takes two images of pedestrians as input and determines whether they have the same identity
Deep Ranking Framework
训练阶段,标记的数据放到ranking units,之后送入deep CNN,正确的匹配排名应靠前,通过最小化正样本排名的加和惩罚乱序排名,网络结构如下:
正确的匹配比错误匹配的相似度得分要高,即:
f(x,x+)>f(x,y),∀y∈G−
G−
中的样本是与x未匹配的,x与
G−
中样本排名可认为是0-1损失的加和:
根据匹配的考虑
(x,G−)
应可能的小,而对于
G−
样本,与x匹配度排名则无法解释,目标函数为:
使用逻辑回归代替0-1损失,目标函数为
J=∑x∑y∈G−σ(f(x,x+)−f(x,y))
最终的是学习相似度度量方法f(.,.),使用深度网络学习。
网络结构
包含5个卷积层提取特征,后随3个全连接层。网络结构如下:
网络的输入是拼在一起的图像对,单个图像256*128,拼接后256*256,卷积操作为:
最后三层是全连接层,
优化
A.Ranking Unit Sampling
将训练数据放到ranking 节点,每个节点包含一个probe x,一个
x+
和一个x的随机采样的索引集
Rx
,其中
Rx
是
G−
的子集,损失函数是:
损失对相似度的梯度为:
ranking节点变为三元组约束: f(x,x+)>f(x,x−)
实验结果