文章题目、出处:
MAGIC: Multimodal relAtional Graph adversarIal inference for Diverse and Unpaired Text-based Image Captioning
论文地址:https://arxiv.org/pdf/2112.06558.pdf
目的:
打破单一和监督的图像字幕方法,进行无监督的图像字幕生成。
结论:
可以根据选定的中心对象自适应地构建多模态关系图。
背景:
基于文本的图像字幕(TextCap)需要同时理解视觉内容和图像中的文本,以生成自然语言的描述。基于文本的图像直观地包含了丰富而复杂的多模态关系内容,图像可以从多个视图而不是单个标题进行描述,大规模的配对数据注释不容易获得,需要花费大量的时间和精力。无监督/未配对方法能够将视觉学习为语言。
方法:
1、 描述多样性
2、 关系建模
3、 未配对(无监督)学习
当人们对图像进行不同的描述时,他们更倾向于关注一些突出的区域,然后查询与上下文相关的内容部分,并解释他们之间的关系来描述。
1、 Multimodal Relational Graph Encoder
动态地选择中心对象作为中心对象感知池,然后自适应地构造它们的多关系图,以表示不同的细粒度内容。最后,gcn 建模模态内和交叉关系,学习多关系图嵌入。
多模态特征提取:faster RCNN、OCR
中心对象感知池:受到人类注意机制的启发,描述一个图像,通常集中于一个突出的对象或区域,然后从一到多查询其相关信息,忽略不关心的内容,组成细粒度的句子。通过softmax学习每个对象的权重。
多模态关系图嵌入:关系、属性、文本三种类型节点。
2、 Sentence Auto-Encoder
句子自动编码器,它通过句子的自重构来充分捕捉语言属性。构建句子场景图,通过句子解码器解码由潜在向量编码的句子。
3、 Unpaired Adversarial Caption Inference
跨域对齐和语言鉴别器