【斯坦福博士论文】在语言模型融合多模态知识

21c65ca53c8f3e7682497b2d1bd7903e.png

来源:专知
本文为论文介绍,建议阅读5分钟文本提供广泛且富有语境的知识,知识图谱通常提供结构化的领域知识,而图像则促进各种视觉应用。

6f96463dc0b2ebfb2439dce38ba314c6.png

语言模型,如GPT-4,具有生成对用户查询的文本响应的能力。它们被用于各种任务,包括问答、翻译、摘要和个人助理等。然而,为了创建更多功能的人工智能助手,这些模型需要处理更多样化和复杂的任务,涉及领域或视觉知识,如回答医疗问题以及解释或生成图像。这种需求促使了开发能够访问并利用文本之外的多样化知识源的模型,如数据库和图像。在本论文中,我们旨在开发能够利用多模态知识的语言模型,包括文本、知识图谱和图像,以解决各种用户查询。文本提供广泛且富有语境的知识,知识图谱通常提供结构化的领域知识,而图像则促进各种视觉应用。

本论文共有五章。第一章介绍语言模型如何有效地从文本数据中学习知识的方法。具体来说,我们在一系列相关文档上训练语言模型,鼓励它们学习和推理具有长期依赖性的知识。这种方法在复杂的长上下文和多步推理任务上表现出强大的性能。在第二章中,我们介绍了使语言模型能够利用知识图谱信息的方法。具体来说,我们开发了一种新的模型架构,结合了语言模型和图神经网络,以及一个融合文本和知识图谱表征的训练目标。这种方法在涉及领域知识的任务上表现出强大的性能,如医疗问题回答。在第三章中,为了使语言模型能够在文本信息旁使用和生成视觉内容,我们设计了能够编码、检索和解码文本和图像交织序列的统一多模态模型。该模型采用检索器来获取文本或视觉知识,并将其整合到一个多模态变换器中,该变换器使用标记表示同时编码和解码文本和图像。最后,在第四和第五章中,我们展示了将文本、结构化和视觉知识融合技术应用于解决实际医疗任务的情况,包括临床试验结果预测和多模态医疗问题回答。

总之,本论文构建了能够理解和生成多模态内容的模型,涵盖了文本、知识图谱和图像。

16f018f802f3dcfd894a69ced2618ac1.png

bb770c342d66afce6a36b520c021e4b2.png

66a977904f0383990163a9600ff89b2f.png

51eb35d5f7064303b63966e7c89d9de7.png

1fa7c4a40ce1439458e74c315e116624.png

647fbdbe4704d91bb452de9c29d33769.png

e0caf88f83901c2a8c1dcb034331fcb6.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
多模态视觉语言模型是一种能够同时处理图像和文本的模型。目前有几个主流的框架用于构建多模态视觉语言模型,包括: 1. ViLBERT(Vision-and-Language BERT):ViLBERT是由微软研究院提出的一种多模态预训练模型。它通过联合训练图像和文本任务来学习视觉和语言之间的关联。 2. LXMERT(Learning Cross-Modality Encoder Representations from Transformers):LXMERT是由美国南加州大学提出的一种多模态预训练模型。它使用Transformer网络结构来编码图像和文本,并通过联合训练来学习视觉和语言之间的交互表示。 3. UNITER(UNiversal Image-TExt Representation):UNITER是由华为诺亚方舟实验室提出的一种多模态预训练模型。它使用Transformer网络结构来编码图像和文本,并通过联合训练来学习视觉和语言之间的共享表示。 4. VisualBERT:VisualBERT是由美国斯坦福大学提出的一种多模态预训练模型。它将图像和文本输入到同一个Transformer网络中,并通过联合训练来学习视觉和语言之间的关联。 5. OSCAR(Object-Semantics Aligned Pre-training):OSCAR是由Facebook AI提出的一种多模态预训练模型。它使用Transformer网络结构来编码图像和文本,并通过联合训练来学习视觉和语言之间的对齐表示。 这些主流框架都在多模态视觉语言理解任务中取得了很好的效果,并且在图像描述生成、视觉问答等任务上有广泛的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值