论文阅读16 | Visible-Infrared Person Re-Identification via Homogeneous Augmented Tri-Modal Learning

文章目录

1.创新点

本文的创新点在于,将RGB图像的三个通道逐像素做线性累加,生成灰度模态图像作为辅助;然后将三种模态的图像经过一个参数共享的单流网络,使用一个分类器计算三个模态图像的交叉熵损失,使用一个加权的三方三元组,以优化跨多种模式的相对距离。

好处是生成的灰度图像既保存了RGB图像的结构信息,又近似于IR模态的图像样式,是一个很好的桥梁。

2.网络框架

首先对RGB图像的三个通道做简单的线性累加,得到对应的灰度图,这样点对点的逐像素转变保持了原始图像的结构信息。具体使用pytorch中的Grayscale(3)操作,得到RGB的均匀增强的灰度图。

将一个ID的三种图像传入参数共享的CNN中,经过池化和BN层之后,计算身份损失和改进的三元组损失。文章中使用BNneck,resnet50作为网络的backbone。
在这里插入图片描述
单流网络:作者认为使用参数丰富的单流网络除了简单高效之外,还可以自动捕获特定模态的信息。具体的,通过最小化RGB和gray之间的差异,网络捕获了结构信息所以对颜色变化会更加鲁棒;通过最小化gray和IR之间的差距,因为在单通道中网络可以捕获更多具有鉴别性 texture/shape。

3.损失函数

(1)身份损失

所有模态特征都经过同一个分类器,计算三种模态(xv,xg,xr)的交叉熵损失之和:
在这里插入图片描述
这里作者加入一种不变性调节器(Homogeneous Invariant Regularizer),主要思想就是通过特征提取网络后,原始可见图像和灰度图像的特征应该是不变的,即最小化两者图像的特征。可以使得网络对颜色变化具有更强的鲁棒性。
在这里插入图片描述
所以,最终的身份损失表示为
在这里插入图片描述
(2)加权三方三元组损失

分别从三个模态中选择anchor和正负样本。具体的,RGB作为anchor,从IR中选最远的正样本,从gray中选最近的负样本;IR作为anchor,从gray中选最远的正样本,从RGB中选最近的负样本;gray作为anchor,从RGB中选最远的正样本,从IR中选最近的负样本。
在这里插入图片描述
得到三个三元组损失之和
在这里插入图片描述
以上的三个三元组对最终的loss贡献相同,而实际中,由于样本的变化每个三元组的分布是不一样,所以使用一个参数进行加权。w代表着这个三元组的权重,更hard的样本会得到更大的权重,并且权重会随着网络的优化而不断更新。
在这里插入图片描述
为了更好的平衡每个三元组的重要性,考虑每个三元组对其他所有三元组的关系,对于每个三元组使用一个正则化。
在这里插入图片描述
得到最终的加权三方三元组损失
在这里插入图片描述
在这里,作者加入了一个正样本对调节器,主要思想就是最小化每次采样的正样本对之间的距离,减小跨模态的差异。在三元组损失优化样本关系距离的时候,可以精确的减少正样本对之间的跨模态变化。
在这里插入图片描述
(3)总损失
在这里插入图片描述

实验指标在SYSUMM01,all search中的rank1达到55.29,ragdb的V to IR 的rank1达到71.83。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值