论文浅尝 | KM-BART：用于视觉常识生成的知识增强多模态BART

最新推荐文章于 2024-01-08 01:26:11 发布

开放知识图谱

最新推荐文章于 2024-01-08 01:26:11 发布

阅读量950

点赞数

文章标签： python 计算机视觉机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/125038757

版权

本文介绍了KM-BART模型，它扩展了BART以处理图像和文本的多模态数据，通过引入知识增强的预训练任务提升模型的常识推理能力。在视觉常识生成任务上，KM-BART展示了优越的性能，包括基于知识的常识生成、属性预测、关系预测等预训练任务，实验证明这些任务的有效性。

摘要由CSDN通过智能技术生成

笔记整理：陈子强，天津大学硕士

动机

视觉语言模型早期集中在纯理解任务（例如，VQA视觉问答），尽管在理解任务上取得了先进的性能，却很少关注多模态生成任务。当前的预训练任务例如，掩码语言模型（MLM）和掩码区域模型（MRM）使得模型能够在视觉和语言特征之间建立对齐，这种特征对齐无法提高模型的多模态常识推理能力。

亮点

KM-BART的亮点主要包括：

1.作者扩展了BART模型来处理图像和文本的多模态数据，并通过引入任务相关标记来实现多模态推理。；2.为了提高视觉常识生成（VCG）模型的性能，作者通过设计一个新的预训练任务，将外部知识图中的常识知识隐式地融入到KM-BART中，我们称之为基于知识的常识生成（KCG）。3.除了KCG，作者还为KMBART加入了标准的预训练任务，包括掩码语言建模（MLM）、掩码区域建模（MRM）以及归因预测（AP）和关系预测（RP）。实验结果表明，所有的预训练任务都是有效的，结合这些预训练任务， KMBART能够在VCG任务上达到最先进的性能。

模型及预训练任务

视觉常识生成（VCG）是给定图片和文本（event），生成图片中人物之前会发生什么（before），任务当前的意图（intent），以及之后会发生什么（after）。下图是一个例子：

最低0.47元/天解锁文章

开放知识图谱

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。