RGB-Infrared Cross-Modality Re-Identification


首先分析下Re-ID这个task的特点,和tracking有点类似,目标是同一个人在不同场景、角度,不同姿势,甚至是不同模态下的归类。这意味着需要拉近同一个人在不同场景、模态下对应的feature。因此,只要是某个人的图像,不论是哪个模态,力争最终提取到的feature是有共同特性的。
通常使用孪生网络提特征,再使用共享层提公共特征,以实现模态融合。一些模态间、类间的loss来引导此过程,或者是使用GAN。

对于其他任务就不一定要强行融合模态了,比如RGBT counting,我觉得是个相辅相成的过程吧,有些可以作为补充信息用上,而一些黑夜的完全是黑的,只能抛弃……emmm……我想要解决的是模态具有主从性的任务,RGB in counting & depth in segmentation都是作为非必要的补充信息

one-stream

《RGB-Infrared Cross-Modality Person Re-Identification》

2017-ICCV,这个task的挖坑论文:
在这里插入图片描述
Motivation是显而易见的,应对夜晚场景,不多说了。

Challenge1:RGB images是三通道RGB, IR images是单通道的不可见光,两个模态有着本质差别。
Challenge2: Colour information iscrucial in RGB Re-ID, however can hardly be used in RGB-IR Re-ID
Challenge3:RGB Re-ID中就存在的viewpoint change,
pose and exposure problems,在RGB-IR中仍然存在且更加麻烦

三个贡献:

  1. 作者做了一个跨RGB&IR两模态的Re-ID数据集SYSU-MM01进行研究(中大牛逼,打call!)
  2. 研究分析了跨模态任务的几种结构,one-stream two-stream 以及非对称FC:
    在这里插入图片描述
  3. 提出了deep zero-padding方法进行跨模态建模,适用于one-stream and two-stream structure

Structure
cross-modal的主要几种结构如下:
在这里插入图片描述
本文分析了one-stream&two-stream两种结构,并且经过一些假设和推导后认为二者是可以等价的,one-stream可以对待不同domain的数据进行不同的反应,激活specific&shared nodes而忽略其他domain的。理论上不需要先经过specific layer再经过shared layer进行跨模态建模,one-stream也可以自动的选择性激活神经元。

因此提出zero-padding的方式。Re-ID也是类似于分类,若是跨模态,在input为两个模态都预留了位置。RGB&IR image都可以输入,缺失的domain就用0来补。one-stream model会自动依据不同不同domain数据的输入进行映射~
在这里插入图片描述
(不得不佩服作者的insight以及writing包装能力。看似很简单的idea,作者给出充分的理论推导,挖掘了模型背后的一些东西。个人很喜欢这种做法与研究思路!)

two-stream

《Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking》

感谢知乎上一位大佬,总结很到位:https://zhuanlan.zhihu.com/p/55320029
在这里插入图片描述
孪生分支提特征,公用的FC实现模态融合,后面的两种loss来引导融合过程。使用 ranking loss 加上 cross-entropy loss 解决行人重识别问题是近几年多数方法的典型代表,本文是在跨模态的情况下对这两个loss进行了改进。

《Hierarchical Discriminative Learning for Visible Thermal Person Re-Identification》

和上一篇结构上很相似,也是two-stream的在这里插入图片描述
在特征提取分类的过程中,提出了一个metric learning的概念,也是在类间模态间,约束与拉近距离。不具体分析了,详见论文。

Attend to the Difference: Cross-Modality Person Re-identification via Contrastive Correlation

人类在比较两个相似物体时通常会注意到它们之间的差异性,因此本文提出了一种双路径交叉模态特征学习框架

先是一个two-stream的常规架构
在这里插入图片描述
然后是针对不同人之间的差异性进行建模与特征表示,本质上还是在模态间及类内进行分类,比较适用Re-ID task
在这里插入图片描述

2020-CVPR Cross-modality Person re-identification with Shared-Specific Feature Transfer

可以参考https://zhuanlan.zhihu.com/p/109383385,是paper作者本人写的。
motivation是,specific domain feature也是非常重要的,比如RGB中的一些色彩信息。所以作者先是two-stream structure获取共有&私有特征后,再对三类特征(两个domain的私有,以及共有特征)使用GCN处理。利用近邻关系进行信息传递,会补全每个样本缺失的对立模态的specific feature,而且GCN的平滑特性也会使得shared feature鲁棒性有所提高。最后三类feature会被fusion,再进行检索。
在这里插入图片描述
先是拼接特征H&P得到 Z Z Z公式(9)。
依据two-stream structure输出feature H&P进行Affinity modeling关联建模得到 A A A,求其对角矩阵可得D,再加上一个可学习的参数W,以及ReLU,最终可以得到一个平滑后的feature Z ~ \widetilde Z Z
在这里插入图片描述
在这里插入图片描述

看到这里我有个很奇怪的想法就是,好不容易分离出来的specific and shared features,又用GCN fusion成一个。这不白干了嘛。。
果然:
在这里插入图片描述
看来review和我有一样的担心,所以作者加了一部分loss进行约束。我没有细看,估计是有点用的吧,毕竟也取得了SOTA效果。
这种GCN fusion的方式还是值得研究的,有空多关注下!

GAN

2018-IJCAI Cross-Modality Person Re-Identification with Generative Adversarial Training

ji rongrong老师团队的工作

使用GAN来提取公共子空间中的modality-invariant features(这应该是现在很常见的一种跨模态融合操作了,之前听实验室一同学也是这种思路在做RGBD saliency segmentation,不过就是比较难调……)
思路很简单,判别器希望区分出RGB&IR两种不同模态,而生成器努力提取公共特征,并且处理好行人id分类。
在这里插入图片描述

模态转换

具体思路是利用GAN将RGB图像转换成infrared风格或者反之。统一风格模态后,再去提共同特征。可以看作是GAN方法和two-stream的结合。
可以参考https://zhuanlan.zhihu.com/p/91655667
我对这种方式表示怀疑。自己看过很多RGB&infrared的数据,RGB是有很多细节,infrared则对物体表面不敏感,对人体发热的表面皮肤才能成像。所以个人觉得这种用GAN暴力迁移,还是难以突破物理限制去想象另一个光谱的东西。。然而这两年唯二中了CV三大顶会的还就是GAN模态转换的。可能idea比较唬人看上去比较优美,但个人不太喜欢这种理论站不住脚有点为了novelty而novel的。。

2019-ICCV RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature Alignment

CycleGAN 将RGB转为infrared:
在这里插入图片描述

2019-CVPR Learning to Reduce Dual-level Discrepancy for Infrared-Visible Person Re-identification

RGB & infrared 直接相互转换:
在这里插入图片描述

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值