文章汉化系列目录
知识图谱与多模态学习的关系研究综述P1
知识图谱与多模态学习的关系研究综述P2
知识图谱与多模态学习的关系研究综述P3
知识图谱与多模态学习的关系研究综述P4
知识图谱与多模态学习的关系研究综述P5
VI 挑战与机遇
MMKGs与传统KG的目标是缓解各种任务中长尾知识稀缺的问题,这一问题反映了现实生活中高频共现和人类经验的模式。目前的研究假设,假如拥有一个无限扩展的MMKG,就可以涵盖几乎所有相关的世界知识,足以有效地应对所有多模态挑战。然而,仍存在一些关键问题:我们如何获取理想的多模态知识?理想的MMKG应具备什么特征,能否精确反映人类大脑对世界知识的高级理解?此外,与大型语言模型(LLMs)的知识能力相比,MMKG是否提供了独特且不可替代的优势?探索这些问题对于我们在该领域的持续研究至关重要。
VI-A MMKG的构建与获取
(i) 如§ III-B所述,MMKG构建主要涉及两种范式:为图像注释KG符号或将KG符号与图像进行对齐。近期的发展如文献[68]所强调,开始探索一种新路径,即将从多张图像中提取的局部三元组与大规模KG进行对齐,可视为MMKG和超MMKG的混合模式。该混合方法的优势有两点:不仅扩展了图像数量的覆盖(如第一种范式所示),还引入了第二种范式的广泛知识规模。这种方法推动了大规模三元组级别的多模态信息生成,为未来在多模态实体对齐和MMKG驱动的应用(如MLLM预训练和VQA)领域带来了机遇和挑战。
(ii) 精细知识的优化和对齐在MMKG中至关重要。理想的MMKG应当是分层的,具有详细且抽象的多模态知识深度结构。这种结构允许自动分解大规模跨模态数据,使得一张图像能够承载多个概念的对齐【561】。此外,分割技术代表了对图像标注的进一步要求,利用诸如Segment Anything【562】等技术,可以显著减少视觉模态中的背景噪音影响。因此,朝向分割级别、分层和多粒度的MMKG发展将成为未来的重要方向。
(iii) 在视觉模态中,我们认为抽象概念应与抽象视觉表示相对应,而具体概念则应与特定视觉表现一致。例如,诸如猫和狗的广泛概念在大脑中呈现为一般化的动物形象,而具体修饰词(如“阿拉斯加雪橇犬”)则提供了更加明确的理解,与MMKG中的路径检索类似。此外,我们还认为每个概念,不论是否可视化,都可以关联某种模态表现。抽象概念“心灵”可能唤起“脑”或“思考中的人”之类的图像,这展示了MMKG表达非可视化概念的能力。这一观点与先前的看法【10】【84】形成对比。值得注意的是,在人类认知中,罕见概念(如“独角兽”)通常更为生动地呈现。如果我们仅将独角兽视为“有角的马”,这种特定的图像会被记忆,而非有角的海豹或狮子。这与MMKG数据结构相呼应:具有较少图像的概念呈现得更加清晰,而图像较多的概念则更加泛化和模糊。
(iv) MMKG的存储和利用效率仍然是一个关注点。尽管传统KG轻量化且能够在最小参数下存储大量知识,但MMKG需要更多空间,这在跨任务中挑战数据的高效存储和应用。提高效率可以考虑将多模态信息嵌入到密集空间作为一种临时解决方案。未来研究应努力在不牺牲MMKG可解释性和结构完整性的前提下提高使用和存储效率,这一微妙的平衡将是一个持续的挑战。
(v) MMKG质量控制在多模态(如视觉)内容中引入了独特的挑战,例如图像的错误、缺失或过时问题。现有MMKG中有限的图像与文本的精细对齐,以及自动MMKG构建方法的噪声,均需开发质量控制技术,可能通过基于模态信息质量打分的方式进行控制。鉴于世界知识的动态性,定期更新MMKG至关重要。一个重要的研究方向在于高效实现多模态知识冲突检测和更新。动态、时序甚至时空MMKG【563】的开发同样重要,以增强其在多样环境和用户需求中的适应性。此外,跨语言MMKG可以促进跨文化交流,通过理解和协作克服语言障碍,并支持全球文化共享。
VI-B KG4MM任务
在评估基于知识图谱的多模态任务时,识别多模态知识的独特优势尤其重要,特别是相对于大型文本或多模态语料库。一个关键问题是结构化(多模态)知识图谱是否能提供不可替代的优势,从而充分发挥其潜力。此外,还应考虑是否通过(多模态)知识图谱增强的非LLM模型可以在特定任务上与MLLMs匹敌或优于MLLMs,为未来的发展提供令人信服的支持理由。
多模态内容生成
目前,多模态知识图谱在多模态内容生成中的应用相对有限。现有大多数努力仅是将知识图谱整合为数据集之外的附加上下文,或用于连接不同的视觉场景。未来的发展应着眼于构建更大、更详细的多模态知识图谱,通过训练中使用多模态结构化数据来促进更加受控且逻辑连贯的生成,从而减少幻觉现象。
多模态任务整合
目前,不同领域独立发展,且交互较少。在跨模态检索(CMR)中,(多模态)知识图谱被广泛用于信息增强,而在基于知识的VQA中,重点主要放在密集向量检索和模态转换技术上。这突显了未来发展潜力,例如将基于知识图谱的CMR方法整合到基于知识图谱的VQA中。类似地,生成任务可以增强检索、推理和判别,知识增强的判别任务在为其他任务优化答案方面扮演关键角色。随着知识密集型多模态任务的重要性日益增加,以(多模态)知识图谱为核心融合这些不同领域将变得至关重要。
扩展多模态任务的MMKG的挑战
正如§V-E所讨论的,基于多模态知识图谱的任务通常侧重于检索相关活动,利用多模态知识图谱的自然数据库特性。然而,在不同任务中,特别是推理方面,利用大规模多模态知识图谱的应用还处于初期,相关探索性研究有限。例如,Zha等人【46】通过多模态概念描述和整合MLLMs来增强基于知识的VQA。然而,这些方法仅将多模态知识图谱作为“键:值”型的检索数据库,而未完全利用其多模态结构化能力。
在不同任务中MMKG的受限应用可以归因于以下几个因素:
(i) MMKG的非统一组织和本体:当前的MMKG缺乏标准化格式,在每个下游任务所涵盖的知识领域和重点上差异显著。现有的MMKG主要关注百科或常识性知识【45】、【46】、【64】、【67】,而与常识和科学相关的MMKG【66】、【68】则显著稀缺。此外,一些抽象知识组件的“不可视化”特性限制了其实际应用【67】、【84】。
(ii) 存储和处理开销:大规模MMKG的庞大存储需求和长时间的处理周期阻碍了它们的广泛采用。相反,小规模MMKG在跨任务泛化中通常提供的价值有限。
(iii) MMKG中的数据时效性和完整性问题:这些问题增加了多模态幻觉的风险。
(iv) 大语言模型(LLMs)和多模态大模型(MLLMs)的比较优势:LLMs和MLLMs在各个领域中以其广泛的泛化能力和通用人工智能(AGI)潜力而著称【564】,而MMKGs则提供了可解释性和编辑灵活性,具有独特的价值。然而,MMKG的开发、维护和应用也伴随着一定的成本。来自下游任务的反馈将继续塑造业界对其各自角色和潜力的看法。
解锁大规模MMKG在多模态任务中的潜力
(i) 与非文本模态的整合:未来的大规模MMKG驱动的下游任务可以整合当前KG驱动的VQA方法,注重非文本模态。这可能进一步涉及使用模态投影或适配器进行跨模态对齐【463】、【565】,结合多模态GNN方法【566】以及模态特征解耦技术,以丰富多模态信息的细粒度和层次结构【258】。
(ii) 构建丰富语义的MMKG:MMKG数据可以超越传统的专门化或通用格式。通过开发任务特定的流程,可以将多模态数据集转换为具有增强语义的MMKG,并使用现有KG作为基础参考或桥梁。此过程不仅可以通过结构化的多模态输入增强MLLM训练,还能为MMKG社区提供有价值的、语义丰富的数据集。
(iii) 借助LLM重构多模态任务:结合LLM的文本理解和生成能力,可以重构多模态任务。将知识图谱驱动的多模态任务转化为MMKG内部任务,如多模态知识图谱补全(MKGC)、多模态实体对齐(MMEA),以增强领域整合。目前已有一些方向上的尝试【26】,后续将进行深入讨论。
VI-C MM4KG任务
MMKG融合:当前的多模态实体对齐(MMEA)主要集中于A-MMKG中的实体对齐,将图像和其他模态仅视为属性。未来研究应重新思考图像的角色,探讨多图像实体对齐、NMMKG级别对齐,甚至图像实体与文本实体的对齐。此外,模型的时间和空间效率、跨多种场景的可泛化性和适用性(例如存在不确定缺失模态时【65】)是需要仔细考虑和评估的关键因素。考虑到MMEA方法通常表现出二次或更高的复杂度,提升其可扩展性对于大规模多模态知识图谱的对齐尤其重要【518】、【567】,这些图谱涉及图像、属性和时间戳【421】。未来工作的另一个重要方面是识别MMEA的实际应用场景,并确定MMEA是否能与其他多模态任务交叉,进而探索新的研究方向,如科学研究领域的应用。
MMKG推理:与MMEA类似,当前的多模态知识图谱补全(MKGC)方法主要关注于A-MMKG,模态缺失是一个普遍问题【549】。未来研究应探索更多的原理性分析,例如探讨图像模态为何以及如何有助于KGC,并制定增强这种效果的策略。一个关键问题是如何清晰解释这些好处,尤其是在N-MMKG背景下【458】。此外,扩展MKGC以涵盖多种模态,如数值、音频和视频,也是推进MMKG推理能力的必要之举,旨在适应任何新增的模态。MKGC的另一个未来方向是将任务集成到多模态大模型(MLLMs)中。诸如KGLlaMA【546】和KoPA【547】的研究已探讨了基于LLM的KGC。然而,未来仍面临包括整合更多模态、实现复杂推理以及扩展数据集的挑战。
将多模态任务转化为MMKG范式:Pahuja等人【26】通过将物种图像和上下文数据整合到MMKG中,重新构建了物种分类,将分类任务转化为链接预测任务。该方法将图像与物种标签相连接,并利用多模态上下文信息,如视觉线索、拍摄时间和GPS坐标,增强分类性能。尤其在物种超出其典型分布范围的情况下表现出色;通过利用生物分类学,它提高了泛化能力和对稀有物种的识别。例如,捕获于非洲的猫科动物图像更有可能被分类为老虎。这一方法为任务的组织和执行建立了新范式,扩展了MKGC的范围,不仅涵盖了传统的在MMKG内的预测任务,还跨越了多个领域,标志着MMKG社区中的一项重要且前瞻性的发展。
将多模态任务用于增强MMKG内任务:各种多模态任务可以增强MMKG内的任务。例如,条件文本生成图像任务可填补MMKG中的缺失模态,从而提升MKGC和MMEA的表现;跨模态检索可用于细化和扩展MMKG中的图像质量;多模态推理和分类技术可以为MKGC任务中的候选实体提供基于推理的重新排序。此外,还存在大量尚未探索的潜在反馈机制,可以进一步增强MMKG的功能。尽管这些努力前景广阔,但我们建议采取平衡的方法,强调未来工作需拓宽MMKG社区在各种任务中的应用范围,并更深入地探索MMKG的独特潜力和价值。
VI-D 大型语言模型
学术界对大型语言模型(LLMs)的定义通常与拥有大量参数的模型联系在一起,例如LLaMA7B【189】。这些模型在零样本学习和自发能力方面的进展,使其在逼近通用人工智能(AGI)的道路上更进一步,突显了其在自然语言处理(NLP)和多模态领域中的重要性。随着多模态知识在LLMs中的融合不断深入,语义网社区也开始区分这些模型与发展中的(MM)KG驱动的多模态方法之间的独特价值。
(i)微调:MMKGs为多模态大模型(MLLMs)的有监督微调(SFT)提供了丰富的结构化多模态数据来源,特别适用于特定领域的应用【568】【569】。在视觉语言模型(VLMs)中有效的MMKG训练技术也可以应用于MLLMs,正如§V-E中讨论的那样。Chen等人【570】指出的视觉知识提取不足的问题,以及Zhou等人【124】发现的BLIP2【91】在A-OKVQA数据集【215】上43%的错误可以通过适当的知识集成来解决,这些发现突显了将明确且特别是长尾知识嵌入MLLMs的必要性【571】。这种嵌入在MMKGs中可以通过两种不同的路径实现:一种是进行主动的知识图谱路径探索,以构建特定指令【572】;另一种则是利用自指示技术自动演化并生成多层次的多模态指令数据【573】-【576】。此外,MMKGs中固有的结构化多模态关系数据为探索纯视觉LLMs(或大型视觉模型LVMs【577】)及MLLMs的视觉外推能力提供了基础【578】【579】。进一步而言,MMKG数据可以用于探索多模态“逆向诅咒”现象【580】的概念,即训练数据中知识实体的顺序影响模型理解,可能会限制模型对信息的全面理解。
(ii) 幻觉:随着LLMs的迅速发展,生成表面真实但实际不准确的网络内容的风险正在增加。这种现象被称为“幻觉”【581】-【583】,通常源于训练过程中遇到的过时或不正确的数据,或是对象频繁共现绑定的影响,影响了LLMs和MLLMs的表现【584】-【586】。为应对这一问题,LAMM【183】整合了来自Wikipedia的42K条知识图谱事实,并利用Bamboo数据集【587】增强了问答中的常识知识,突显出高质量(MM)KG在减轻LLM幻觉中的作用【533】【583】。开发强大的幻觉检测器【588】【589】对于识别并抑制LLM输出中的错误至关重要。未来工作可以着重于将MMKG与检测方法结合,以提升多模态任务的准确性,并利用(MM)KG来实现知识感知的陈述重写,从而减少LLM推理中的事实幻觉【590】【591】。
(iii) 代理:多代理协作【592】-【594】模拟人类的认知过程,可以分解VQA推理路径,并让多个(M)LLMs参与集体问题解决【595】【596】。在这一框架中,KGs可以初始化代理个性【597】【598】,为直观设计“角色大脑”提供结构化的基础,从而丰富代理之间的交互并增强其集体推理能力。链式思维(CoT)推理【200】通过整合中间推理步骤,显著提升了LLM的复杂推理能力。这一进展催生了多种专注于KG的应用【599】【600】。例如,Sun等人【600】展示了如何使用LLMs以互动的方式在KG中导航,提取知识用于推理。他们的“Think-on-Graph”(ToG)方法利用束搜索来识别KG中的有效推理路径。将这些创新与MMKG结合有望拓展任务范围,尤其是在增强模型解读和交互多种数据类型(如图像和文本)的能力上【601】。这一整合使我们更接近于实现类人多模态能力,并为高级机器智能奠定了基础。
(iv) 检索增强生成(RAG):检索增强生成(RAG)【602】系统通过引入超出模型参数限制的长尾知识来增强(M)LLMs。然而,过多的文档检索可能导致上下文不当的回答【603】,增加了幻觉风险,除非使用精心设计的提示【604】。KG中的高信息密度和结构化组织可以缓解此问题。此外,MMKG通过将不同模态作为锚点可以进一步帮助多模态RAG【605】,提供比基于向量的搜索更相关且解释性更强的结果【606】【607】。
(v) 编辑:LLMs的编辑通常涉及微调有限的参数,类似于Lora方法,主要目标是纠正事实错误。对于MLLMs,编辑还涉及更新信息,以保持事实准确性和跨模态一致性。由于难以在不同模态间同步知识,这一任务极具挑战性【608】。在编辑过程中,使用MMKG驱动的策略显得至关重要,以便在准确调整相关事实的同时,确保上下文的准确性【609】。
(vi) 对齐:将LLMs与人类偏好对齐对于其作为语言助手的成功至关重要。教会模型在合适时承认其局限性,比如适时地回答“我不知道”,是其必要能力之一。然而,之前基于监督微调(SFT)的模型通常在没有表示不确定性的情况下生成响应。人类反馈强化学习(RLHF)【610】【611】已被证明在将LLMs更紧密地对齐于人类偏好方面是有效的,这不仅保证了模型的准确响应,也提升了对知识界限的识别【612】【613】。近期的研究趋势聚焦于利用结构化知识来构建LLMs的偏好结构,这是一项显著的进步。KnowPAT【569】通过知识对齐模型偏好,指导LLMs为特定查询选择相关知识。该策略通过针对人类偏好调整数据并确保领域特定问答的事实准确性,为在LLMs中利用MMKG进行多模态知识对齐提供了一个有前景的方向。
(vii) MMKG优化:LLMs凭借其先进的文本理解与生成能力,能够促进MMKG的扩充与优化。近期工作【546】【547】探索了基于LLM的知识图谱补全(KGC),其中KoPA【547】将KG结构知识整合到LLMs中,使其能够进行结构感知的推理。此外,随着在线数据的持续增长与演化,LLMs还可作为主动标注器【614】支持MMKG的持续学习和自我更新。
(viii) MMKG专家混合架构(MoE):专家混合(MoE)架构在LLM应用中展现出优异的性能。MoE通过GateNet或路由器对输入样本进行多类别分类,以决定将输入分配给合适的专家,这一关键过程被称为专家选择(Experts Selection),在学界通常被描述为稀疏激活【615】-【619】。这些专家处理输入并形成最终预测。在生物学、电子商务和地理等领域特定的MMKG中,一个创新方向是创建一个庞大的MMKG库或资源库,其中包含针对不同领域的多种MMKG,允许下游任务动态选择与之相关的MMKG信息,类似于MoE的方式。探索这一概念化方法不仅能够推动MMKG级别的检索和重新排序发展,还能促进MMKG与模型参数的无缝集成,将其效用与MoE架构的动态分配效率相结合。
VII 结论
本文全面回顾了多模态知识图谱(MM4KG)的发展历程以及(MM)KG在多模态任务(KG4MM)中的历史演进。我们对截至2024年1月的所有相关研究进行了细致的审视和分析,梳理了该领域的发展轨迹。我们的重点包括对KG4MM中KG驱动的视觉问答(Visual Question Answering)和MM4KG中的多模态实体对齐(Multi-Modal Entity Alignment)等关键任务的详细基准测试和方法分析。我们的目标是构建该领域的系统蓝图,为当前或未来计划在这一领域深入研究的学者提供一个有价值的参考。
总而言之,本综述旨在成为MMKG研究的基础指南,指明研究路径和未来前景,从而支持未来的学术研究。