来源:多模态机器学习与大模型
本文共1300字,建议阅读5分钟
本文提出一种面向多模态属性图(MMAGs)的多模态大语言模型(MLLM)框架。
论文链接:
https://arxiv.org/pdf/2502.11925
简介
本文提出 GRAPHGPT-O,一种面向多模态属性图(MMAGs)的多模态大语言模型(MLLM)框架,支持从图中联合生成图像和文本。为解决图规模爆炸、图结构非欧几里得性质、模态层级依赖和推理顺序依赖等关键挑战,GRAPHGPT-O 引入了:PPR 采样机制,图结构线性化或层级表示方法,融合 Q-Former 的层次对齐器,适应多种生成策略的推理机制。该方法在多个真实领域数据集(如 ART500K 和 Amazon-Beauty)上实现了显著优于现有基线模型的性能。
研究动机
虽然MLLMs能处理图文输入,但现实中的图文数据常以图结构存在(如商品图谱、艺术品网络),包含节点关联(例如同作者、同风格),但 MLLMs 难以直接利用此类结构性信息。面临挑战包括:
(1) 图结构爆炸:邻居扩展导致上下文过长;
(2) 非欧空间:图无法直接序列化处理;
(3) 模态层级依赖:节点与子图间信息结构复杂;
(4) 推理依赖性:文本与图像生成顺序互相影响。
论文贡献
(1)提出了一种基于 PageRank 的个性化图采样方法来提取相关子图信息,从而有效缓解图大小爆炸问题。
(2)研究了图线性化的各种设计方法,使其非欧几里得性质适应顺序 MLLM 处理范式。
(3)构建了一个分层图对齐器,结合节点级模态融合 Q-Former 和图结构 Q-Former 来捕获 MMAG 中的分层模态依赖关系。
(4)探索了不同的推理策略,包括顺序和并行生成,以解决 MMAG 中跨模态的推理依赖关系。凭借自适应图提示设计和专门的对齐技术,GRAPHGPT-O 实现了 MMAG 中的有效理解和内容生成,克服了与图拓扑和多模态属性集成相关的关键挑战。
GRAPHGPT-O模型
图1给出了模型的整体框架。输入为一个多模态属性图 ,节点 同时具备文本 和图像 。目标是联合生成 ,即:
图 1. GRAPHGPT-O 的整体框架
给定多模态属性图 (MMAG) 中的目标节点,首先使用个性化 PageRank 进行邻居采样。然后,这些采样的邻居节点被输入到分层多模态对齐器 (Hierarchical Multimodal Aligner),该对齐器负责对齐文本、图像和图结构数据。节点的每个模态最初都经过编码,并通过多个自注意力层和交叉注意力层进行融合,以生成多模态节点 token。随后,这些 token 由图结构 Q-former 处理,最终作为多模态 LLM 的输入。
GRAPHGPT-O 框架主要由4个步骤组成,(1)将图信息引入 MLLM。(2)基于 PageRank 的个性化图采样策略,以应对图规模爆炸式增长的挑战。(3)图线性化策略,开发了一个分层图对齐器,以解决图的非欧几里得特性并捕捉 MMAG 中的分层模态依赖关系。(4)探讨不同的生成策略来管理跨模态的推理依赖关系。
PPR 采样——缓解图规模爆炸
使用 Personalized PageRank (PPR) 计算与目标节点相关的邻居:
PPR 传播方程:
邻居选择:
图线性化与层级对齐——解决图结构输入问题
线性表示: 将邻居节点的文本/图像按顺序打包为序列输入:
层级 Q-Former: 两级 Transformer 结构,对图进行深层次对齐:
节点级 Q-Former:
输入拼接:
跨注意力提取核心表示:
自注意力层:
图结构 Q-Former:
初始输入:
输出融合:
层级自注意力:
最终将图结构表示 输入 MLLM。
多模态生成优化-融合图、文、图像
模态统一训练损失:
图像生成(Stable Diffusion)损失:
推理机制设计——解决模态顺序依赖
提供两种推理方案:
(1)顺序推理
文本先:
图像先:
(2)并行推理
实验结果与分析
📊 数据集
ART500K:艺术品图谱(图像+标题+风格关系)
Amazon-Beauty / Amazon-Baby:商品图谱(图像+标题+共购关系)
📈 指标
CLIP-I2:生成图像质量(图像 vs GT)
CLIP-IT:图文对齐性
Perplexity:文本生成连贯性
KL-DV:生成节点与邻居分布的 KL 散度
📋 结果摘要(ART500K)
🧪 消融实验
去除图结构 Q-Former 后 KL-DV 激增至 9.14;
用 GNN 替代 Q-Former 后性能下降明显。
致谢作者!转载请注明出处!关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️ /欢迎投稿
编辑:于腾凯
校对:林亦霖
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU