Cross-Spectrum Dual-Subspace Pairing for RGB-infrared Cross-Modality Person Re-Identification
文章[1]针对跨模态(红外)行人重识别,提出了跨光谱图像生成Cross-Spectrum Image Generation(CSIG)方法来生成多种光谱的图像,提出了双子空间配对策略(Dual-subspace Pairing Strateg)利用生成的光谱图像解决在红外模式下类内距离大于类间距离的问题。这两种方法的结合称之为跨光谱双子空间配对模型-Cross-spectrum Dual-subspace Pairing (CDP) model。作者还提出了动态难光谱挖掘-Dynamic Hard Spectrum Mining方法来优化跨光谱生成的随机性策略,使之更偏向于生成难训练的样本。
论文一览:
痛点
作者为了提取共享的跨模态特征来解决模态偏差,提出了跨光谱图像生成Cross-Spectrum Image Generation(CSIG),来生成多光谱的图像。如下图Fig. 4。
此外作者认为,红外图像一个很大的问题,就是红外摄像头往往使得行人图片的类内距离大于类间距离,导致错分类。如下图3:
可以看到如果是普通的ReID模型,在Martket上不会错分类,但SYSU-MM01数据集上就容易错分类。为了解决这个问题文章提出了Dual-subspace Pairing Strategy,将原图像和生成的多光谱图像一起加入训练,提高模型对不同光谱的辨别力。
在之前生成光谱图像时候,本来是R,G,B,X中等概率随机选取一种来进行训练。作者认为这样做太粗糙,也不是最优的,因为前面生成光谱图像的随机性,很可能网络会重复学习某一种光谱而忽视了其他的。Dynamic Hard Spectrum Mining解决的就是这个问题,作者设计了这样的机制可以动态地选择某个较难的光谱图像,提高其采样概率以此加入训练。
模型
跨光谱图像生成方法 Cross-spectrum Image Generation
Cross-spectrum Image Generation能够对给定的RGB图像生成对应的多种光谱图像,通过提取相应颜色channel,能够产生图像的红光谱,蓝光谱,绿光谱和灰度的图像。C为原始RGB图像,R,G,B,X分别为红绿蓝通道和灰度通道。则该过程可表达为:
f是跨光谱图像生成函数。
可视化如下:
生成的图像可以看到,就一些诸如衣服颜色等特征已经跟红外图像相似了。作者认为引入这些不同模态的图像参与训练会提升网络的辨别力。
双子空间配对策略 Dual-subspace Pairing Strategy
原理如下图,当使用 Cross-spectrum Image Generation生成了配对的光谱图像之后,利用这些生成的光谱图像进行通道拓展(即1个通道复制为3个通道),以此一起输入给网络。
Dual-subspace Pairing Strategy会为RGB图像随机的从R,G,B,X中选一个光谱图像来配对,为红外图像随机一个亮度抖动图像来配对。如下图:
可以看到第三行生成光谱图像将复制为3通道,然后输入给网络,迫使网络学习跨光谱特征。而第一行则可以将图像转化为灰度图。
动态难光谱挖掘 Dynamic Hard Spectrum Mining
作者发现直接对生成的光谱图像使用triplet hard loss是很难收敛的,所以如Fig. 6所示,作者只对原图像进行triplet hard mining,根据网络流程我们可以知道作者使用了经典的classification loss + triplet hard loss模式:
作者提出了Dynamic Hard Spectrum Mining解决了动态自主选择生成的光谱图像,给予较难的光谱图像以更高的采样概率。通过这种方式,一旦模型学会解决某个特定光谱,则以后对该光谱的采样概率会下降。
设Nt是最后一个training epoch的生成图片数量,全体置信度有:
第t个epoch有采样概率:
最终的采样概率可以计算为:
其中α是一个平衡历史概率和当前概率的常数。
模型结构
文章采用的模型结构如下图7(b);
作者认为尽管存在着很多种模型结构可以选择,但是文章选择的结构是最具效率和泛化能力的,也达到了当前的新SOTA。
实验
实验在SYSU-MM01和RegDB数据集上进行检测,在SYSU-MM01的SOTA对比如下:
注意DHSM是动态难光谱挖掘(Dynamic Hard Spectrum Mining),CDP是结合了跨光谱图像生成方法(Cross-spectrum Image Generation)和双子空间配对策略(Dual-subspace Pairing Strategy)的总方法,Cross-spectrum
Dual-subspace Pairing。
在RegDB的SOTA对比如下:
PK sampling 策略,classification loss和triplet loss的分离试验如下:
其中P是一个batch中拥有的行人的数量,K是一个batch中单个行人所拥有的图片数。可以看到baseline4是效果最好的。
基于baseline4,进行的CDP的分离试验如下:
跨光谱图像生成的channel(包含灰度图)的分离试验如下:
可证明包含所有channel和灰度图的图像生成才是效果最好的。
即跨的模态越多,表现也就越好:
跨模态图像生成与CDP结合关于channel的分离试验如下:
使用CDP前后的嵌入空间可视化:
问题
CDP的分离试验还测了去掉triplet loss的CDP-1,我感觉有点多余,因为triplet loss的已经做过分离试验了,为什么还要再验证?这里的实验应该着重验证CDP,但是只测CDP似乎太少了,可以把TABLE IV的实验中的CDP-1去掉,然后把TABLE IV和TABLE VI合并,即在TABLE VI中加一个baseline4,这样会简洁很多。
文章篇幅太长了,感觉很多地方太啰嗦,可以缩减。比如Related work没必要再分Metric Based ReID和Part Based ReID,而是直接分成RGB ReID和RGB-infrared ReID。选一些有代表性的RGB ReID就可以了,而着重讲一下其他RGB-infrared ReID的方法,引出自己的方法为什么优于其他RGB-infrared method。
参考文献
[1] Fan X, Luo H, Zhang C, et al. Cross-Spectrum Dual-Subspace Pairing for RGB-infrared Cross-Modality Person Re-Identification[J]. arXiv preprint arXiv:2003.00213, 2020.