文章目录
1.创新点
本文的创新点在于,将RGB图像的三个通道逐像素做线性累加,生成灰度模态图像作为辅助;然后将三种模态的图像经过一个参数共享的单流网络,使用一个分类器计算三个模态图像的交叉熵损失,使用一个加权的三方三元组,以优化跨多种模式的相对距离。
好处是生成的灰度图像既保存了RGB图像的结构信息,又近似于IR模态的图像样式,是一个很好的桥梁。
2.网络框架
首先对RGB图像的三个通道做简单的线性累加,得到对应的灰度图,这样点对点的逐像素转变保持了原始图像的结构信息。具体使用pytorch中的Grayscale(3)操作,得到RGB的均匀增强的灰度图。
将一个ID的三种图像传入参数共享的CNN中,经过池化和BN层之后,计算身份损失和改进的三元组损失。文章中使用BNneck,resnet50作为网络的backbone。
单流网络:作者认为使用参数丰富的单流网络除了简单高效之外,还可以自动捕获特定模态的信息。具体的,通过最小化RGB和gray之间的差异,网络捕获了结构信息所以对颜色变化会更加鲁棒;通过最小化gray和IR之间的差距,因为在单通道中网络可以捕获更多具有鉴别性 texture/shape。
3.损失函数
(1)身份损失
所有模态特征都经过同一个分类器,计算三种模态(xv,xg,xr)的交叉熵损失之和:
这里作者加入一种不变性调节器(Homogeneous Invariant Regularizer),主要思想就是通过特征提取网络后,原始可见图像和灰度图像的特征应该是不变的,即最小化两者图像的特征。可以使得网络对颜色变化具有更强的鲁棒性。
所以,最终的身份损失表示为
(2)加权三方三元组损失
分别从三个模态中选择anchor和正负样本。具体的,RGB作为anchor,从IR中选最远的正样本,从gray中选最近的负样本;IR作为anchor,从gray中选最远的正样本,从RGB中选最近的负样本;gray作为anchor,从RGB中选最远的正样本,从IR中选最近的负样本。
得到三个三元组损失之和
以上的三个三元组对最终的loss贡献相同,而实际中,由于样本的变化每个三元组的分布是不一样,所以使用一个参数进行加权。w代表着这个三元组的权重,更hard的样本会得到更大的权重,并且权重会随着网络的优化而不断更新。
为了更好的平衡每个三元组的重要性,考虑每个三元组对其他所有三元组的关系,对于每个三元组使用一个正则化。
得到最终的加权三方三元组损失
在这里,作者加入了一个正样本对调节器,主要思想就是最小化每次采样的正样本对之间的距离,减小跨模态的差异。在三元组损失优化样本关系距离的时候,可以精确的减少正样本对之间的跨模态变化。
(3)总损失
实验指标在SYSUMM01,all search中的rank1达到55.29,ragdb的V to IR 的rank1达到71.83。