RGB-Infrared Cross-Modality Re-Identification

最新推荐文章于 2022-04-19 16:58:53 发布

judgechen1997

最新推荐文章于 2022-04-19 16:58:53 发布

阅读量858

点赞数 2

分类专栏： Multimodal Learning

本文链接：https://blog.csdn.net/judgechen1997/article/details/104964915

版权

Multimodal Learning 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

Methods of processing infrared image for Re-ID task

one-stream
- 《RGB-Infrared Cross-Modality Person Re-Identification》
two-stream
GAN
- 2018-IJCAI Cross-Modality Person Re-Identification with Generative Adversarial Training
模态转换
- 2019-ICCV RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature Alignment
- 2019-CVPR Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

首先分析下Re-ID这个task的特点，和tracking有点类似，目标是同一个人在不同场景、角度，不同姿势，甚至是不同模态下的归类。这意味着需要拉近同一个人在不同场景、模态下对应的feature。因此，只要是某个人的图像，不论是哪个模态，力争最终提取到的feature是有共同特性的。
通常使用孪生网络提特征，再使用共享层提公共特征，以实现模态融合。一些模态间、类间的loss来引导此过程，或者是使用GAN。

对于其他任务就不一定要强行融合模态了，比如RGBT counting，我觉得是个相辅相成的过程吧，有些可以作为补充信息用上，而一些黑夜的完全是黑的，只能抛弃……emmm……我想要解决的是模态具有主从性的任务，RGB in counting & depth in segmentation都是作为非必要的补充信息

one-stream

《RGB-Infrared Cross-Modality Person Re-Identification》

2017-ICCV，这个task的挖坑论文：
在这里插入图片描述
Motivation是显而易见的，应对夜晚场景，不多说了。

Challenge1：RGB images是三通道RGB， IR images是单通道的不可见光，两个模态有着本质差别。
Challenge2： Colour information iscrucial in RGB Re-ID, however can hardly be used in RGB-IR Re-ID
Challenge3：RGB Re-ID中就存在的viewpoint change,
pose and exposure problems，在RGB-IR中仍然存在且更加麻烦

三个贡献：

作者做了一个跨RGB&IR两模态的Re-ID数据集SYSU-MM01进行研究（中大牛逼，打call！）
研究分析了跨模态任务的几种结构，one-stream two-stream 以及非对称FC：
提出了deep zero-padding方法进行跨模态建模，适用于one-stream and two-stream structure

Structure
cross-modal的主要几种结构如下：
在这里插入图片描述
本文分析了one-stream&two-stream两种结构，并且经过一些假设和推导后认为二者是可以等价的，one-stream可以对待不同domain的数据进行不同的反应，激活specific&shared nodes而忽略其他domain的。理论上不需要先经过specific layer再经过shared layer进行跨模态建模，one-stream也可以自动的选择性激活神经元。

因此提出zero-padding的方式。Re-ID也是类似于分类，若是跨模态，在input为两个模态都预留了位置。RGB&IR image都可以输入，缺失的domain就用0来补。one-stream model会自动依据不同不同domain数据的输入进行映射~
在这里插入图片描述
（不得不佩服作者的insight以及writing包装能力。看似很简单的idea，作者给出充分的理论推导，挖掘了模型背后的一些东西。个人很喜欢这种做法与研究思路！）

two-stream

《Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking》

感谢知乎上一位大佬，总结很到位：https://zhuanlan.zhihu.com/p/55320029
在这里插入图片描述
孪生分支提特征，公用的FC实现模态融合，后面的两种loss来引导融合过程。使用 ranking loss 加上 cross-entropy loss 解决行人重识别问题是近几年多数方法的典型代表，本文是在跨模态的情况下对这两个loss进行了改进。

《Hierarchical Discriminative Learning for Visible Thermal Person Re-Identification》

和上一篇结构上很相似，也是two-stream的在这里插入图片描述
在特征提取分类的过程中，提出了一个metric learning的概念，也是在类间模态间，约束与拉近距离。不具体分析了，详见论文。

Attend to the Difference: Cross-Modality Person Re-identification via Contrastive Correlation

人类在比较两个相似物体时通常会注意到它们之间的差异性，因此本文提出了一种双路径交叉模态特征学习框架

先是一个two-stream的常规架构
在这里插入图片描述
然后是针对不同人之间的差异性进行建模与特征表示，本质上还是在模态间及类内进行分类，比较适用Re-ID task

2020-CVPR Cross-modality Person re-identification with Shared-Specific Feature Transfer

可以参考https://zhuanlan.zhihu.com/p/109383385，是paper作者本人写的。
motivation是，specific domain feature也是非常重要的，比如RGB中的一些色彩信息。所以作者先是two-stream structure获取共有&私有特征后，再对三类特征（两个domain的私有，以及共有特征）使用GCN处理。利用近邻关系进行信息传递，会补全每个样本缺失的对立模态的specific feature，而且GCN的平滑特性也会使得shared feature鲁棒性有所提高。最后三类feature会被fusion，再进行检索。
在这里插入图片描述
先是拼接特征H&P得到 $Z$ 公式(9)。
依据two-stream structure输出feature H&P进行Affinity modeling关联建模得到 $A$ ，求其对角矩阵可得D，再加上一个可学习的参数W，以及ReLU，最终可以得到一个平滑后的feature $\widetilde Z$ ：
在这里插入图片描述

看到这里我有个很奇怪的想法就是，好不容易分离出来的specific and shared features，又用GCN fusion成一个。这不白干了嘛。。
果然：
在这里插入图片描述
看来review和我有一样的担心，所以作者加了一部分loss进行约束。我没有细看，估计是有点用的吧，毕竟也取得了SOTA效果。
这种GCN fusion的方式还是值得研究的，有空多关注下！

GAN

2018-IJCAI Cross-Modality Person Re-Identification with Generative Adversarial Training

ji rongrong老师团队的工作

使用GAN来提取公共子空间中的modality-invariant features（这应该是现在很常见的一种跨模态融合操作了，之前听实验室一同学也是这种思路在做RGBD saliency segmentation，不过就是比较难调……）
思路很简单，判别器希望区分出RGB&IR两种不同模态，而生成器努力提取公共特征，并且处理好行人id分类。
在这里插入图片描述

模态转换

具体思路是利用GAN将RGB图像转换成infrared风格或者反之。统一风格模态后，再去提共同特征。可以看作是GAN方法和two-stream的结合。
可以参考https://zhuanlan.zhihu.com/p/91655667
我对这种方式表示怀疑。自己看过很多RGB&infrared的数据，RGB是有很多细节，infrared则对物体表面不敏感，对人体发热的表面皮肤才能成像。所以个人觉得这种用GAN暴力迁移，还是难以突破物理限制去想象另一个光谱的东西。。然而这两年唯二中了CV三大顶会的还就是GAN模态转换的。可能idea比较唬人看上去比较优美，但个人不太喜欢这种理论站不住脚有点为了novelty而novel的。。

2019-ICCV RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature Alignment

CycleGAN 将RGB转为infrared：
在这里插入图片描述

2019-CVPR Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

RGB & infrared 直接相互转换：
在这里插入图片描述

judgechen1997

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
RGB-Infrared Cross-Modality Re-Identification

Methods of processing infrared image for Re-ID task《RGB-Infrared Cross-Modality Person Re-Identification》《RGB-Infrared Cross-Modality Person Re-Identification》2017-ICCV，这个task的挖坑论文：Motivation是显而易见...
复制链接

扫一扫