笔记整理:陈子强,天津大学硕士
动机
视觉语言模型早期集中在纯理解任务(例如,VQA视觉问答),尽管在理解任务上取得了先进的性能,却很少关注多模态生成任务。当前的预训练任务例如,掩码语言模型(MLM)和掩码区域模型(MRM)使得模型能够在视觉和语言特征之间建立对齐,这种特征对齐无法提高模型的多模态常识推理能力。
亮点
KM-BART的亮点主要包括:
1.作者扩展了BART模型来处理图像和文本的多模态数据,并通过引入任务相关标记来实现多模态推理。;2.为了提高视觉常识生成(VCG)模型的性能,作者通过设计一个新的预训练任务,将外部知识图中的常识知识隐式地融入到KM-BART中,我们称之为基于知识的常识生成(KCG)。3.除了KCG,作者还为KMBART加入了标准的预训练任务,包括掩码语言建模(MLM)、掩码区域建模(MRM)以及归因预测(AP)和关系预测(RP)。实验结果表明,所有的预训练任务都是有效的,结合这些预训练任务, KMBART能够在VCG任务上达到最先进的性能。
模型及预训练任务
视觉常识生成(VCG)是给定图片和文本(event),生成图片中人物之前会发生什么(before),任务当前的意图(intent),以及之后会发生什么(after)。下图是一个例子: