这篇论文的task主要是视觉文本对齐,作者首先分别在全局和局部的角度上进行跨模态匹配,然后提出使用图像和字幕的生成任务来进一步辅助视觉文本对齐
Main goal: 学习联合多模态嵌入
text-toimage module (TIM) and image-to-text module (ITM).
VTA: Visual Text Alignment
该部分,作者分别从局部和全局的角度来计算图像文本的匹配分数
Image: 局部特征r,全局特征v
Text:word level w,sentence level s
通过word-level 注意力机制实现单词区域对齐
c为一个上下文向量
计算c和w的余弦相似度,并且计算image to text的matching score S
r2是用来放大相关度的
计算一个batch内的图像Ii对于文本Ti匹配的后验概率
L是图像区域与文本单词匹配的损失
为了保持对称性,作者也计算了文本到图像的
此外,作者使用全局特征来计算相似度,
类似于公式(5)和(6),作者计算了一个sentence level 的matching score
TIM: Text to Image Module
使用Conditional Generative Aderversarial Networks,使用一组串联的GANs,将sentence vector作为conditional input
Generative loss
Train discriminators
该公式中,第一项和和第二项分别是无条件和有条件的损失
TIM的最终loss,其中第二项只使用第K个生成器的输出计算assisted losses
ITM: Image to Text Module
使用基于transformer的image captioning model C
使用一个堆叠的transformer layers的 encoder Ce和deocder Cd
首先使用transformer encoder的自注意力机制对regional visual features进行精炼
之后进一步使用cross-attention mechanism用于image-to-text生成
decoder的输出输入到MLP中来预测在p位置上的单词概率
使用交叉熵损失函数来训练ITM
Assisting losse
最终的多模态loss