Methods of processing infrared image for Re-ID task
- one-stream
- two-stream
- 《Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking》
- 《Hierarchical Discriminative Learning for Visible Thermal Person Re-Identification》
- Attend to the Difference: Cross-Modality Person Re-identification via Contrastive Correlation
- 2020-CVPR Cross-modality Person re-identification with Shared-Specific Feature Transfer
- GAN
- 模态转换
首先分析下Re-ID这个task的特点,和tracking有点类似,目标是同一个人在不同场景、角度,不同姿势,甚至是不同模态下的归类。这意味着需要拉近同一个人在不同场景、模态下对应的feature。因此,只要是某个人的图像,不论是哪个模态,力争最终提取到的feature是有共同特性的。
通常使用孪生网络提特征,再使用共享层提公共特征,以实现模态融合。一些模态间、类间的loss来引导此过程,或者是使用GAN。
对于其他任务就不一定要强行融合模态了,比如RGBT counting,我觉得是个相辅相成的过程吧,有些可以作为补充信息用上,而一些黑夜的完全是黑的,只能抛弃……emmm……我想要解决的是模态具有主从性的任务,RGB in counting & depth in segmentation都是作为非必要的补充信息
one-stream
《RGB-Infrared Cross-Modality Person Re-Identification》
2017-ICCV,这个task的挖坑论文:
Motivation是显而易见的,应对夜晚场景,不多说了。
Challenge1:RGB images是三通道RGB, IR images是单通道的不可见光,两个模态有着本质差别。
Challenge2: Colour information iscrucial in RGB Re-ID, however can hardly be used in RGB-IR Re-ID
Challenge3:RGB Re-ID中就存在的viewpoint change,
pose and exposure problems,在RGB-IR中仍然存在且更加麻烦
三个贡献:
- 作者做了一个跨RGB&IR两模态的Re-ID数据集SYSU-MM01进行研究(中大牛逼,打call!)
- 研究分析了跨模态任务的几种结构,one-stream two-stream 以及非对称FC:
- 提出了deep zero-padding方法进行跨模态建模,适用于one-stream and two-stream structure
Structure
cross-modal的主要几种结构如下:
本文分析了one-stream&two-stream两种结构,并且经过一些假设和推导后认为二者是可以等价的,one-stream可以对待不同domain的数据进行不同的反应,激活specific&shared nodes而忽略其他domain的。理论上不需要先经过specific layer再经过shared layer进行跨模态建模,one-stream也可以自动的选择性激活神经元。
因此提出zero-padding的方式。Re-ID也是类似于分类,若是跨模态,在input为两个模态都预留了位置。RGB&IR image都可以输入,缺失的domain就用0来补。one-stream model会自动依据不同不同domain数据的输入进行映射~
(不得不佩服作者的insight以及writing包装能力。看似很简单的idea,作者给出充分的理论推导,挖掘了模型背后的一些东西。个人很喜欢这种做法与研究思路!)
two-stream
《Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking》
感谢知乎上一位大佬,总结很到位:https://zhuanlan.zhihu.com/p/55320029
孪生分支提特征,公用的FC实现模态融合,后面的两种loss来引导融合过程。使用 ranking loss 加上 cross-entropy loss 解决行人重识别问题是近几年多数方法的典型代表,本文是在跨模态的情况下对这两个loss进行了改进。
《Hierarchical Discriminative Learning for Visible Thermal Person Re-Identification》
和上一篇结构上很相似,也是two-stream的
在特征提取分类的过程中,提出了一个metric learning的概念,也是在类间模态间,约束与拉近距离。不具体分析了,详见论文。
Attend to the Difference: Cross-Modality Person Re-identification via Contrastive Correlation
人类在比较两个相似物体时通常会注意到它们之间的差异性,因此本文提出了一种双路径交叉模态特征学习框架
先是一个two-stream的常规架构
然后是针对不同人之间的差异性进行建模与特征表示,本质上还是在模态间及类内进行分类,比较适用Re-ID task
2020-CVPR Cross-modality Person re-identification with Shared-Specific Feature Transfer
可以参考https://zhuanlan.zhihu.com/p/109383385,是paper作者本人写的。
motivation是,specific domain feature也是非常重要的,比如RGB中的一些色彩信息。所以作者先是two-stream structure获取共有&私有特征后,再对三类特征(两个domain的私有,以及共有特征)使用GCN处理。利用近邻关系进行信息传递,会补全每个样本缺失的对立模态的specific feature,而且GCN的平滑特性也会使得shared feature鲁棒性有所提高。最后三类feature会被fusion,再进行检索。
先是拼接特征H&P得到
Z
Z
Z公式(9)。
依据two-stream structure输出feature H&P进行Affinity modeling关联建模得到
A
A
A,求其对角矩阵可得D,再加上一个可学习的参数W,以及ReLU,最终可以得到一个平滑后的feature
Z
~
\widetilde Z
Z
:
看到这里我有个很奇怪的想法就是,好不容易分离出来的specific and shared features,又用GCN fusion成一个。这不白干了嘛。。
果然:
看来review和我有一样的担心,所以作者加了一部分loss进行约束。我没有细看,估计是有点用的吧,毕竟也取得了SOTA效果。
这种GCN fusion的方式还是值得研究的,有空多关注下!
GAN
2018-IJCAI Cross-Modality Person Re-Identification with Generative Adversarial Training
ji rongrong老师团队的工作
使用GAN来提取公共子空间中的modality-invariant features(这应该是现在很常见的一种跨模态融合操作了,之前听实验室一同学也是这种思路在做RGBD saliency segmentation,不过就是比较难调……)
思路很简单,判别器希望区分出RGB&IR两种不同模态,而生成器努力提取公共特征,并且处理好行人id分类。
模态转换
具体思路是利用GAN将RGB图像转换成infrared风格或者反之。统一风格模态后,再去提共同特征。可以看作是GAN方法和two-stream的结合。
可以参考https://zhuanlan.zhihu.com/p/91655667
我对这种方式表示怀疑。自己看过很多RGB&infrared的数据,RGB是有很多细节,infrared则对物体表面不敏感,对人体发热的表面皮肤才能成像。所以个人觉得这种用GAN暴力迁移,还是难以突破物理限制去想象另一个光谱的东西。。然而这两年唯二中了CV三大顶会的还就是GAN模态转换的。可能idea比较唬人看上去比较优美,但个人不太喜欢这种理论站不住脚有点为了novelty而novel的。。
2019-ICCV RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature Alignment
CycleGAN 将RGB转为infrared:
2019-CVPR Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification
RGB & infrared 直接相互转换: