论文阅读16 | Visible-Infrared Person Re-Identification via Homogeneous Augmented Tri-Modal Learning

最新推荐文章于 2024-07-11 14:07:33 发布

Hygge MrYang

最新推荐文章于 2024-07-11 14:07:33 发布

阅读量878

点赞数 1

分类专栏：跨模态行人重识别文章标签：机器学习计算机视觉

本文链接：https://blog.csdn.net/qq_38276972/article/details/117818991

版权

跨模态行人重识别专栏收录该内容

48 篇文章 56 订阅

订阅专栏

文章目录

1.创新点

本文的创新点在于，将RGB图像的三个通道逐像素做线性累加，生成灰度模态图像作为辅助；然后将三种模态的图像经过一个参数共享的单流网络，使用一个分类器计算三个模态图像的交叉熵损失，使用一个加权的三方三元组，以优化跨多种模式的相对距离。

好处是生成的灰度图像既保存了RGB图像的结构信息，又近似于IR模态的图像样式，是一个很好的桥梁。

2.网络框架

首先对RGB图像的三个通道做简单的线性累加，得到对应的灰度图，这样点对点的逐像素转变保持了原始图像的结构信息。具体使用pytorch中的Grayscale(3)操作，得到RGB的均匀增强的灰度图。

将一个ID的三种图像传入参数共享的CNN中，经过池化和BN层之后，计算身份损失和改进的三元组损失。文章中使用BNneck，resnet50作为网络的backbone。
在这里插入图片描述
单流网络：作者认为使用参数丰富的单流网络除了简单高效之外，还可以自动捕获特定模态的信息。具体的，通过最小化RGB和gray之间的差异，网络捕获了结构信息所以对颜色变化会更加鲁棒；通过最小化gray和IR之间的差距，因为在单通道中网络可以捕获更多具有鉴别性 texture/shape。

3.损失函数

（1）身份损失

所有模态特征都经过同一个分类器，计算三种模态(xv,xg,xr)的交叉熵损失之和：
在这里插入图片描述
这里作者加入一种不变性调节器（Homogeneous Invariant Regularizer），主要思想就是通过特征提取网络后，原始可见图像和灰度图像的特征应该是不变的，即最小化两者图像的特征。可以使得网络对颜色变化具有更强的鲁棒性。
在这里插入图片描述
所以，最终的身份损失表示为

（2）加权三方三元组损失

分别从三个模态中选择anchor和正负样本。具体的，RGB作为anchor，从IR中选最远的正样本，从gray中选最近的负样本；IR作为anchor，从gray中选最远的正样本，从RGB中选最近的负样本；gray作为anchor，从RGB中选最远的正样本，从IR中选最近的负样本。
在这里插入图片描述
得到三个三元组损失之和

以上的三个三元组对最终的loss贡献相同，而实际中，由于样本的变化每个三元组的分布是不一样，所以使用一个参数进行加权。w代表着这个三元组的权重，更hard的样本会得到更大的权重，并且权重会随着网络的优化而不断更新。
在这里插入图片描述
为了更好的平衡每个三元组的重要性，考虑每个三元组对其他所有三元组的关系，对于每个三元组使用一个正则化。

得到最终的加权三方三元组损失

在这里，作者加入了一个正样本对调节器，主要思想就是最小化每次采样的正样本对之间的距离，减小跨模态的差异。在三元组损失优化样本关系距离的时候，可以精确的减少正样本对之间的跨模态变化。
在这里插入图片描述
（3）总损失