做行人检索的文章,输入是一对图像,网络输出这对图像的相似度值,新引入的网络层包括跨输入邻域差值层,根据图像对的卷积特征图计算局部关联,之后使用加和特征对输出特征图的邻域进行加和,最后计算远距离像素点的关联性。
检索包括两部分,特征提取和特征相似度衡量。
传统的特征提取方法:颜色直方图,LBP,Gabor,local patch。
相似度度量:M氏距离,LFDA,MFA。
网络架构:two layers of tied convolution with max pooling, cross-input neighborhood differences, patch summary features, across-patch features, higher-order relationships和一个softmax层估计输入的图像是否是同一个人。
1.Tied 卷积层
网络的前两层是卷积层,分别计算两个输入图像的卷积特征,两个视角的网络权值共享。网络输入RGB图像大小60*160*3,使用20个5*5*3的滤波器卷积,之后池化将特征图长宽减半,然后将特征图使用25个5*5*20的滤波器卷积,池化将特征图尺寸减半,最后得到的两个特征图大小为12*37。
2.跨输入邻域差值
两个绞在一起的卷积层分别提供了25个特征图,用于计算差值图
Ki
,在5*5的邻域中计算差值,每个
Ki
是12*37个5*5的网格,即,
另外通过将 fi,gi 换位置构建 K′i 。
3.Patch Summary Features
主要是对5*5的block进行加和,将特征图的大小映射回12*37*25,通过将K与25个5*5*25的滤波器进行卷积实现,步长为5,得到L。对
K′
做同样的运算。
4.across-patch features
学习邻域差值的空间联系,将L与25个3*3*25的滤波器进行卷积,步长为1,之后进行池化,得到M为25个5*18的特征图。
5.Higher-Order Relationships
全连接层获取高阶联系,组合距离比较远的块的信息,并组合
M,M′
的信息,生成向量有500维,之后使用2个节点的softmax层分类。
特征可视化
下图显示了一个正样本和一个负样本每层的特征响应,正样本的响应集中在行人身上,负样本响应集中在背景上: