叶芒博士的多模态Baseline框架解析
Baseline 采用Resnet50,由两个主要部分组成:用于特征提取的双路径网络(一条用于可见光图像,另一条用于热图像)和用于特征学习的双向双约束顶级损失。这里先不涉及损失这一部分,单论前面的网络结构。该双路径网络利用部分共享结构,通过同时建模模态特定信息和模态共享信息来学习多模态共享特征。浅层(特征提取器Feature Extract)的权重不同,用于提取模态特定信息,而嵌入FC层(特征嵌入Feature embedding)的权重共享用于多模态共享特征学习。
1) 特征提取器:
我们利用为可见图像设计的现成特征提取器来提取两种异构模式的特征。我们对这两种模式使用相同的网络结构,因为它们都是为了捕获和提取人物图像的特征表示而设计的。然而,两条路径的网络参数被分别优化以捕获特定于模态的信息。我们在模型中使用AlexNet[53]作为主干网络,用于可见光和热路径。预先训练的五个卷积层(conv1∼conv5)和一个完全连接的层(大小为4096)用于将网络初始化为用于微调的特征提取器。其基本原理是,浅卷积层通常捕获两种模式共享的低级视觉模式。同时,在预先训练好的FC层之后,我们添加了一个批处理规范化层。主要原因是ImageNet包含1000个包含“person”的类,而person重新识别都是“person”图像。如果不进行批量标准化,所有人物图像的特征将被压缩到特征空间的一个小区域中。