这一篇论文讲的是使用多模态来进行图片的检索, 通过文字检索出最好的图片,模型结构如下:
文章提出两个特征概念
- modality-specific 模态独立特征
- modality-shared 模态分享特征,也可以理解为共同特征
文章采用对抗训练框架, 在生成模型处:
使用3个loss 进行训练:
- semantic discrimination loss 用于保证语义的区分能力 ,要求模型提取的特征,对于类别的区分度高。要求模型提取的special特征和shared特征(文中是把两个提取的特征拼接成一个特征向量来进行预测),都能够有效的去辨别样本的类别。
- contrastive loss 对于相同类别的两个不同的样本,要求模型提取对两个样本提取出来的spceial特征相近(包括两个模态), 模型提取出的两个样本的shared特征
- large margin loss 保证模态独立特征和模态分享特征之间的差别度
在区分模型处
- 判断给定样本的modality-shared特征, 来判断信息的模态是什么
这样可以 减少 提取的modality-shared特征的模态区别。也就是说对于每一个提取出来的共享特征,他对于模态之间的结果是变化不大的,无论他是从画面还是从文字提取出来的特征,它的共享特征是类似的,所以它的结果是相同的。