叶芒博士的多模态Baseline框架解析
Baseline 采用Resnet50,由两个主要部分组成:用于特征提取的双路径网络(一条用于可见光图像,另一条用于热图像)和用于特征学习的双向双约束顶级损失。这里先不涉及损失这一部分,单论前面的网络结构。该双路径网络利用部分共享结构,通过同时建模模态特定信息和模态共享信息来学习多模态共享特征。浅层(特征提取器Feature Extract)的权重不同,用于提取模态特定信息,而嵌入FC层(特征嵌入Feature embedding)的权重共享用于多模态共享特征学习。
1) 特征提取器:
我们利用为可见图像设计的现成特征提取器来提取两种异构模式的特征。我们对这两种模式使用相同的网络结构,因为它们都是为了捕获和提取人物图像的特征表示而设计的。然而,两条路径的网络参数被分别优化以捕获特定于模态的信息。我们在模型中使用AlexNet[53]作为主干网络,用于可见光和热路径。预先训练的五个卷积层(conv1∼conv5)和一个完全连接的层(大小为4096)用于将网络初始化为用于微调的特征提取器。其基本原理是,浅卷积层通常捕获两种模式共享的低级视觉模式。同时,在预先训练好的FC层之后,我们添加了一个批处理规范化层。主要原因是ImageNet包含1000个包含“person”的类,而person重新识别都是“person”图像。如果不进行批量标准化,所有人物图像的特征将被压缩到特征空间的一个小区域中。从经验上看,批量标准化显著提高了人员重新识别的性能。
2) 特征嵌入
:
为了在两种异构模式之间学习一个有区别的低维嵌入空间,在双路径特征抽取器之后引入一个共享的全连通层。请注意,此完全连接层的网络参数为两种模式共享,以模拟模式共享信息。实验结果表明,共享结构提高了跨模态人员再识别的性能。共享层充当投影函数,将两种不同模式的特征投影到公共嵌入空间。我们还为输出嵌入特征添加了一个L2规范化层,它平滑了特征表示。
参考论文:
Visible Thermal Person Re-Identification via Dual-Constrained Top-Ranking
Bi-Directional Center-Constrained Top-Ranking for Visible Thermal Person Re-Identification