论文浅尝 | KM-BART:用于视觉常识生成的知识增强多模态BART

本文介绍了KM-BART模型,它扩展了BART以处理图像和文本的多模态数据,通过引入知识增强的预训练任务提升模型的常识推理能力。在视觉常识生成任务上,KM-BART展示了优越的性能,包括基于知识的常识生成、属性预测、关系预测等预训练任务,实验证明这些任务的有效性。
摘要由CSDN通过智能技术生成

笔记整理:陈子强,天津大学硕士

69102c414da575d68c4a853b5f9626ac.png

动机

视觉语言模型早期集中在纯理解任务(例如,VQA视觉问答),尽管在理解任务上取得了先进的性能,却很少关注多模态生成任务。当前的预训练任务例如,掩码语言模型(MLM)和掩码区域模型(MRM)使得模型能够在视觉和语言特征之间建立对齐,这种特征对齐无法提高模型的多模态常识推理能力。

亮点

KM-BART的亮点主要包括:

1.作者扩展了BART模型来处理图像和文本的多模态数据,并通过引入任务相关标记来实现多模态推理。;2.为了提高视觉常识生成(VCG)模型的性能,作者通过设计一个新的预训练任务,将外部知识图中的常识知识隐式地融入到KM-BART中,我们称之为基于知识的常识生成(KCG)。3.除了KCG,作者还为KMBART加入了标准的预训练任务,包括掩码语言建模(MLM)、掩码区域建模(MRM)以及归因预测(AP)和关系预测(RP)。实验结果表明,所有的预训练任务都是有效的,结合这些预训练任务, KMBART能够在VCG任务上达到最先进的性能。

模型及预训练任务

视觉常识生成(VCG)是给定图片和文本(event),生成图片中人物之前会发生什么(before),任务当前的意图(intent),以及之后会发生什么(after)。下图是一个例子:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值