专题解读|多模态图学习

多模态图

随着人工智能技术的不断进步,特别是在多模态数据处理方面,多模态图学习(Multimodal Graph Learning, MGL)逐渐成为研究的热点。多模态图融合了来自不同模态(如文本、图像、声音等)的数据,使得节点可以表示不同类型的实体,边则展示了这些实体间的复杂关系。这种数据结构在医疗保健、社交媒体、交通等多个领域都有广泛的应用。下面将分别介绍多模态图学习的定义和两个工作。

多模态图定义

多模态图(Multimodal Graphs, MGs)被定义为携带异构模态数据的图,例如视觉、文本和声音数据的组合。研究的重点是节点携带多模态数据,而边的特征是单模态的,并且反映了节点之间的连接。根据数据模态在节点中的分布,多模态图被分为三种类型:特征级多模态图、节点级多模态图和图级多模态图。

  1. 特征级多模态图:每个节点存储多模态特征的图;

  2. 节点级多模态图:每个节点携带单模态特征,但节点间特征模态不同的图;

  3. 图级多模态图:包含多个子图,每个子图仅存储单一模态的特征。

Multimodal Graph Learning for Generative Tasks(NeurIPS 2023)

现实世界的应用中存在多种数据模态,如文本、图像、视频等,它们之间存在复杂的多对多关系,而不仅仅是简单的一对一映射。这些数据模态通常以图的形式存在,其中节点代表不同类型的实体,边代表它们之间的连接。为了捕捉这些复杂的关系,作者提出了多模态图学习(MMGL),这是一个系统化的框架,用于处理具有关系结构的多个多模态邻居的信息。框架的目标是在预训练的语言模型(LMs)的基础上,通过整合多模态邻居的上下文信息来增强文本生成的能力。

作者提出了三个研究问题,以探索如何有效地将多模态邻居信息和图结构信息整合到LMs中,并以高效参数的方式进行微调。

研究问题1:如何在避免可扩展性问题的同时,将多个多模态邻居的信息注入到预训练的LMs中?

在多模态图学习(MMGL)中,一个关键挑战是如何有效地处理和整合来自多个邻居的信息,尤其是在这些信息的数据大小和类型各不相同时。为了解决这个问题,作者提出了三种邻居编码模型,每种模型都有其优势和权衡:

  • SA-Text+Embeddings:这种方法通过将文本邻居作为原始文本直接连接到输入序列中,图像和其他模态的数据则通过冻结的编码器转换为嵌入,然后与文本嵌入一起输入到模型中。这样能够保留更多的文本信息,但可能会因为输入序列长度的增加而遇到可扩展性问题。

  • SA-Embeddings:与SA-Text+Embeddings相比,这种方法将所有模态的数据(包括文本)都通过冻结的编码器转换为嵌入,这样可以减少输入序列的长度,提高模型的可扩展性,但可能会因为信息瓶颈而丢失一些信息。

  • CA-Embeddings:这种方法通过将预处理的文本或图像嵌入输入到交叉注意力层中,可以更灵活地处理多模态数据。这种方法在处理时不直接依赖于输入序列的长度,因此在可扩展性方面表现更好,但需要对交叉注意力层进行训练,可能会影响预训练LMs的初始状态。

研究问题2:如何将多模态邻居之间的图结构信息注入到LMs中?

多模态数据通常具有复杂的图结构,例如Wikipedia页面中的不同部分之间的层次结构。为了将这种结构信息有效地整合到LMs中,作者比较了三种不同的图位置编码方法:

  • 序列位置编码:这种方法将邻居信息简单地串联起来,不显式地考虑它们之间的图结构关系。

  • Laplacian eigenvector position encoding (LPE):通过使用图的拉普拉斯特征向量作为位置编码,这种方法可以捕捉邻居之间的结构关系。

  • Graph Neural Networks (GNN):通过利用图神经网络对预先处理好的邻居节点嵌入进行处理,并使用图结构信息,这种方法可以更直接地将图结构信息编码到位置编码中。

这些方法的目标是将图结构信息作为位置编码的一部分,以便在LMs中使用,从而提高生成任务的性能。

研究问题3:如何以高效参数的方式微调预训练的LMs,以从邻居上下文中学习?

在多模态图学习中,对预训练的LMs进行全面的微调可能会非常昂贵,尤其是在处理大规模数据集时。为了以高效参数的方式进行微调,作者探索了三种高效参数微调(PEFT)方法:

  • Prefix tuning:这种方法通过在模型的激活向量前添加一系列连续的任务特定向量,可以在不改变模型主体的情况下调整模型的行为。

  • LoRA:低秩适应是一种在模型的每层中注入可训练的低秩矩阵的方法,这些矩阵可以在保持大部分预训练参数不变的情况下调整模型的权重。

  • Flamingo:这种方法专门针对CA-Embeddings邻居编码,通过只微调新添加的交叉注意力层,并使用门控模块来保持预训练LMs的初始状态,从而在微调过程中保持模型的稳定性和性能。

这些PEFT方法的目标是在保持预训练LMs的大部分参数不变的情况下,通过调整一小部分参数来适应特定的任务和数据,从而在性能和计算成本之间取得平衡。通过在WikiWeb2M数据集上的广泛实验,作者展示了这些方法在处理多模态数据和生成任务中的有效性。

图1 多模态邻居信息编码与文本生成架构

实验表明在多模态图学习(MMGL)中,提供丰富的多模态邻居信息对于提升文本生成任务的性能是有益的。

图2 多模态邻居信息的有效性

Multi-Modal Knowledge Hypergraph for Diverse Image Retrieval (AAAI 2023)

在现实世界的应用中,用户经常使用关键词作为查询来进行图像检索。由于关键词语义范围广泛,因此检索结果的多样性对于满足用户需求尤为重要。现有的方法主要分为两类:一类是基于多阶段重排序策略的方法,这些方法依赖于人工设计来实现结果的多样化;另一类是基于多语义表示的方法,这些方法通过隐式生成器扩展子语义,但这些方法要么依赖于人工劳动,要么缺乏可解释性。为了学习更多样化且可解释的表示,作者提出了一种新的方法,通过利用包含更丰富实体和关系的多模态知识图谱(MMKG),以显式方式捕获子语义。

作者提出了一种无度(degree-free)超图解决方案,通过超链接(hyperlinks)模拟多对多关系,以解决异构源和异构模态的挑战。具体来说,提出了一种基于超链接的多模态知识超图(MKHG),它通过各种超链接桥接异构数据,以多样化子语义。以下是该方法的核心组成部分:

知识超图构建(Knowledge Hypergraph Construction)

  • 利用现成的多模态知识图谱(MMKG)作为基础图,不对其进行修改。

  • 通过添加三种类型的超边(视觉超边、文本超边和属性超边)来构建多模态知识超图,以捕获多对多的关系。

多模态实例打包(Multi-Modal Instance Bagging)

  • 显式地选择多个实例来多样化语义,通过高阶关系的超边来表示基于关键词的查询。

  • 实例打包模块将输入样本表示为一个混合实例包,包括自身和其他高阶相关实体。

多样化概念聚合器(Diverse Concept Aggregator)

  • 设计概念聚合器来使实例更加合理,即减少冗余并均匀分布不同的概念。

  • 使用多实例图来学习概念之间的关系,并移除冗余实例。

语义空间优化(Semantic Space Optimizer)

  • 设计了几种损失函数来优化语义空间,包括图匹配损失(Graph Matching Loss)、实例级损失(Instance-level Loss)和知识级损失(Knowledge-level Loss)。


图3 基于超链接的多模态知识超图

实验评估了多模态知识超图(MKHG)在关键词基础多样化图像检索任务中的有效性。


图4 多模态知识超图的性能

总结

本文介绍了多模态图的定义和相关研究,重点分析了MMGL和MKHG两项研究。这表明了多模态图学习在图任务中具有巨大的潜力和重要性。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

随着互联网技术的快速发展以及数字多媒体技术的迅速普及,网络数据呈爆炸式增长,数据传播形式由单一文本发展为包含文本、图像、视频等多模态数据。深度学习技术为多模态大数据分析提供了强有力支撑并在多个领域取得了极好的效果。但是传统的深度网络无法考虑样本之间的关联,导致数据利用率低。此外,现有的深度学习方法需要依赖海量的标记样本,这会耗费巨大的人力成本。因此,如何解决深度模型对标签的依赖,提升数据的使用效率已经成为学术界及工业界高度关注的问题。图表示学习可以将数据表示为节点以及节点之间的关系,通过把节点及它们的关系映射到一个低维空间可以实现数据间的语义挖掘,并且能更加灵活地将算法应用于不同的数据挖掘任务中。因此,构建多模态数据的图表示模型,研究多模态数据的图表示学习方法已经成为当前数据挖掘与表征领域新的研究热点。  图表示学习方法首先根据样本特征构建图数据,并利用图数据作为监督信息进一步优化模型。因此,构建一个高质量的结构图是图表示学习取得好结果的前提。此外,如何从图结构中提取判别信息,是取得一个良好的识别精度的关键。本论文致力于研究文本、图像等不同模态数据的图表示方法,针对现有方法存在的问题:
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值