知识图谱与多模态学习的关系研究综述P4(《Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey》中文校对)

文章汉化系列目录

知识图谱与多模态学习的关系研究综述P1
知识图谱与多模态学习的关系研究综述P2
知识图谱与多模态学习的关系研究综述P3
知识图谱与多模态学习的关系研究综述P4
知识图谱与多模态学习的关系研究综述P5



V 多模态知识图谱任务

V-A MMKG表征学习

当前主流的MMKG表征学习方法主要集中在A-MMKGs上,因为它们与传统知识图谱的相似性使其更容易适应各种范式转变。这些用于在MMKG中整合实体模态的方法通常分为两大类,这些类别在不同框架中有时会出现重叠。

(i)晚期融合(Late Fusion)【55】、【65】、【415】、【425】、【447】、【476】、【477】方法强调模态间的交互和权重分配,通常在输出生成之前通过求和、拼接、多层感知器(MLPs)或门控机制进行特征聚合。MKGRL-MS【477】 设计了独特的单模态嵌入,通过多头自注意力机制确定每个模态在语义组成中的贡献,并对加权后的多模态特征求和以生成MMKG实体表示。MMKRL【447】 在一个统一的翻译语义空间中学习跨模态嵌入,通过拼接融合每个实体的模态嵌入。最近的基于Transformer的方法【65】、【425】引入了用于多模态实体对齐的细粒度实体级模态偏好。DuMF【476】 是一种双轨方法,利用双线性层进行特征投影,并在每个轨道中使用注意力块进行模态偏好学习,最终通过一个门控网络将这些特征整合为一个统一的表示。
(ii)早期融合(Early Fusion)【62】、【387】、【454】、【478】、【479】方法在初始阶段整合多模态特征,使得模态间能够进行更深入的交互,适合复杂的推理任务。这种方法有助于形成统一而强大的实体表示,增强其与其他模型整合时的兼容性。CMGNN【478】 首先使用多层感知器(MLP)将实体模态标准化为统一的嵌入,然后通过与扰动后的负样本进行对比来优化这些嵌入。MMRotatH【479】 采用门控编码器整合文本和结构数据,在基于旋转动力学的知识图谱嵌入(KGE)框架中过滤掉不相关信息。最近的研究【62】、【68】、【387】、【454】利用了BERT和ViT等(V)PLMs进行多模态数据整合,将图结构、文本和图像格式化为序列或密集嵌入,以便兼容语言模型(LMs)。通过这样做,能够利用这些模型的推理能力以及其参数中嵌入的知识来支持多模态链接预测等任务。

V-B MMKG 采集

MMKG获取(或提取) 是指通过整合文本、图像、音频和视频等多模态数据来构建多模态知识图谱(MMKG)。这一过程利用来自其他来源的多模态信息,例如互联网搜索引擎或公共数据库,来增强现有的知识图谱或开发新的MMKG,从而实现对复杂、相互关联概念的全面理解。生成的MMKG利用每种模态的独特优势,提供更加一致和详细的知识表示。

V-B1 多模态命名实体识别和关系抽取

1) 多模态命名实体识别与关系抽取:命名实体识别(NER)用于识别和分类文本中的命名实体,将其归类为人名、组织和地点等。例如,在句子“Apple Inc.是由Steve Jobs在加利福尼亚创立的”中,NER模型会识别出“Apple Inc.”为组织、“Steve Jobs”为人名、“California”为地点。多模态命名实体识别(MNER)进一步扩展了这一功能,通过结合视觉信息在多模态情境中显著提升NER的效果【480】,【481】。如图11(左)所示,假设有一条社交媒体帖子,配有Elon Musk站在SpaceX标牌前的照片,并附有文字说明:“在发射场的美好一天!”。MNER模型不仅会利用文本信息(如“Elon Musk”和“SpaceX”),还会识别图像中的实体。该视觉信息强化了对“Elon Musk”为人名和“SpaceX”为组织的识别。

关系抽取(RE)是检测和分类文本中实体之间的语义关系。例如,使用同一句话,RE可以辨别出“Apple Inc.”与“Steve Jobs”之间的“创立于”关系。多模态关系抽取(MMRE)则结合视觉信息来丰富文本关系分析,特别在新闻文章分析等应用中效果显著,此类应用中文本通常与相关图像或视频一同出现。

如图11(右)所示,假设有一篇体育报道,配有LeBron James和Stephen Curry在NBA比赛中的照片,并附带文字说明:“今晚比赛的史诗对决!”在此情境下,MMRE模型会同时分析文本和视觉内容,解释视觉线索(如他们的竞争姿态和球队标志),从而推断出他们在比赛中作为对手的竞争关系。

MNER与MMRE的重叠点:通常,MNER和MMRE都通过结合视觉信息来增强文本分析,但它们的关注点不同:MNER聚焦于识别实体,而MMRE则聚焦于分类这些实体之间的关系。在MMKG构建框架中,MMRE可以视为MNER的后续任务。尽管如此,这些任务的开发方法正在日益融合,许多研究在MNER和MMRE中使用了相似的模型设计【377】【393】【396】。因此,我们在本节中将它们一起讨论。

定义8:多模态命名实体识别(MNER)。MNER通常被视为一个序列标注问题,其中模型输入一个句子 x l = { w 1 , w 2 , … , w L } x_l = \{w_1, w_2, \dots, w_L\} xl={w1,w2,,wL} 及关联的图像 x v x_v xv,识别文本中的命名实体并确定其类别。MNER的目标是预测标签序列 Y = { y 1 , … , y n } Y = \{y_1, \dots, y_n\} Y={y1,,yn},其中每个标签 y i y_i yi 对应于句子中每个标记 w i w_i wi 的命名实体类别。此过程包括标签序列的概率计算,遵循NER中的基础序列标注技术【482】。

定义9:多模态关系抽取(MMRE)。MMRE分析句子 x l = { w 1 , w 2 , … , w L } x_l = \{w_1, w_2, \dots, w_L\} xl={w1,w2,,wL} 及其对应的图像 x v x_v xv,专注于句中的实体对 ( e 1 , e 2 ) (e_1, e_2) (e1,e2),任务是结合文本和图像线索(例如图像中的对象交互)来分类这些实体之间的关系。对于每个潜在关系 r i ∈ R r_i \in R riR,分配一个置信评分 p ( r i ∣ e 1 , e 2 , x l , x v ) p(r_i|e_1, e_2, x_l, x_v) p(rie1,e2,xl,xv)。关系集合 R = { r 1 , … , r C , N o n e } R = \{r_1, \dots, r_C, None\} R={r1,,rC,None} 包括预定义的关系类型,其中“None”表示没有特定关系。

MNER方法的演进:MNER的进步可以通过多种视觉和文本信息集成方法的演变来衡量。

  1. 基于BiLSTM的方法:早期的研究【365】【368】【369】【483】【484】主要采用一种模态注意力网络来融合文本和图像特征,在LSTM中引入视觉注意力门,以增强对社交媒体帖中命名实体的理解。随着Transformer模型的普及,基于预训练语言模型(PLM)的方法成为主流。

  2. 基于PLM的方法:在这些方法中,基于编码器的PLM(如BERT)率先应用于MNER,重点在于设计模态融合方法以增强文本NER性能并最小化视觉噪声【370】【372】【375】【378】【390】【392】【485】。例如,UMT【370】在BERT架构上增加了Transformer层以获得更多上下文化的文本表示,并添加了跨模态Transformer进行视觉集成,表明视觉表示在识别实体类型上有所帮助,但在检测实体范围上作用有限。因此,UMT包含一个辅助的基于文本的模块,专门用于更精确的实体范围检测。

FMIT【378】利用平面格结构和相对位置编码,使不同模态的细粒度语义单元之间直接互动。MAF【375】包含一个跨模态匹配模块,计算文本和图像之间的相似度评分,利用该评分调整视觉信息的集成量。此外,跨模态对齐模块将两个模态的表示对齐,创建一个桥接语义差距的统一表示,有助于更好的文本-图像连接。ITA【390】将图像转化为文本对象标签和字幕,作为跨模态输入,使文本专用的PLM能够有效建模模态间的互动并提高抗噪性。

Wang等【372】提出一种基于Transformer的瓶颈融合机制,限制噪声传播,使模态仅通过可训练的瓶颈标记进行互动。CATMNER【392】利用基于实体标签的显著性评分来优化注意力机制,解决跨模态交互的复杂性。MoRe【485】使用多模态检索框架,分别训练文本和图像的检索器来收集相关段落和相关图像,这些数据用于训练NER和RE任务的独立模型,随后通过专家混合(MoE)模块整合它们的预测。

TISGF【384】创建视觉和文本场景图,对其编码以提取跨模态的对象级和关系级特征。接着,它使用文本-图像相似性模块确定视觉信息融合的程度。最后,通过融合模块整合多模态特征,并通过条件随机场(CRF)确定实体类型。

PromptMNER【391】利用与实体相关的提示,通过CLIP【486】视觉语言模型(VLM)评估这些提示与图像的匹配来提取视觉线索。MGICL【394】在不同粒度上分析数据,包括文本的句子和词标记层级,以及视觉的图像和对象层级。其跨模态对比方法通过视觉特征增强文本分析,辅以视觉门机制以过滤噪声。】

(iii) 特殊案例:一些研究突出了MNER中的独特场景。例如,Liu等【487】提出在MNER中引入不确定性估计以提高预测的可靠性。DebiasCL【386】通过一种基于视觉对象密度引导的困难样本挖掘策略和去偏对比损失,致力于减少MNER中的偏差。T5【197】和BART【295】等基于编码器-解码器的PLMs,以其在自然语言理解(NLU)和生成(NLG)方面的优势,逐渐在近期MNER研究中获得青睐。Wang等【488】引入了一个细粒度NER和定位任务(FMNERG),涉及从文本中提取命名实体、它们的详细类型以及图像中的对应视觉对象。这里,将(实体、类型、对象)三元组转化为目标序列,使用T5生成该序列,并利用线性变换层将视觉对象表示适配到T5的语义空间中。

MMRE方法的演变:MMRE评估文本内容中实体对之间的潜在关系,借助图像等多模态信息以填补语义缺口,从而实现更准确的关系分类。Zheng等【398】首先展示了多模态数据在填补语义缺口和增强社交媒体文本分析方面的好处。在此基础上,一些研究【367】【400】引入了一种文本-视觉关系对齐方法,将句子解析树与视觉场景图对齐,从而改进文本关系识别。在基于PLM的方法中,HVPNet【377】引入对象级视觉信息,采用分层视觉特征和视觉前缀引导的融合以增强整合效果;DGF-PT【401】实现了一个双门控融合模块,利用局部和全局视觉门过滤无用的视觉数据,并通过生成式解码器利用实体类型来优化候选关系,从而更好地捕获MMRE中的有意义视觉线索。

资源与基准

  • (i) Twitter2015【489】和Twitter2017【484】:MNER的关键数据集,包含来自Twitter的多样化多模态内容,涵盖2015-2017年。包括分类为位置、人物、组织和其他的图文对。每条记录均由专家标注命名实体。
  • (ii) Twitter-FMNERG【488】:伴随细粒度NER和定位任务(FMNERG)的数据集,提供文本中的命名实体及其对应视觉对象的注释,包括边框坐标。
  • (iii) MNRE【367】:Twitter来源的MMRE主数据集。由于推文的简短性和社交媒体内容的多样性,MNRE成为评估多模态技术中的表示、融合和推理的具有挑战性的基准。
  • (iv) JMERE【490】:一个结合MNER和MMRE的联合多模态实体-关系抽取数据集。

V-B2 多模态事件抽取

2) 多模态事件抽取:事件抽取(EE)不同于命名实体识别(NER)和关系抽取(RE),其关注数据中事件的动态和时间维度:

  • (i) 动态特性:NER和RE专注于文本的静态方面(即识别实体及其关系),而EE则捕捉事件的展开和背景。EE不仅涉及谁或什么参与,还涵盖正在发生什么、时间、地点及其他与事件相关的细节。

  • (ii) 组件整合:EE整合了NER和RE的元素,将识别出的实体及其关系链接到特定事件,从而提供更完整的叙述。

  • (iii) 上下文丰富性:EE深入事件触发器和参数的细微之处,揭示事件的发展和对参与实体的影响。

EE的重点在于识别事件触发器和参数,捕捉事件的动态特性。例如,在句子“公司推出了一款新产品”中,“推出”是事件触发器,“公司”和“产品”是参数,表示事件的主要参与者和要素。该概念与知识图谱(KG)中的关系和实体形成对比,KG主要代表静态实体及其关系,而不涉及事件的演变性质。EE强调事件的时间和上下文特性,与KG静态、实体为中心的特性不同,凸显了EE在动态数据分析和知识表示中的独特作用。

早期基于文本的EE方法利用了卷积神经网络(CNNs)【491】和循环神经网络(RNNs)【492】–【494】等技术,随后的一些模型采用了图神经网络(GNNs)【495】以更好地理解事件上下文依赖性。预训练语言模型(PLMs)的出现进一步增强了EE的能力【496】–【498】。在计算机视觉领域,EE与情境识别【499】【500】相吻合,重点在于识别图像或视频中的视觉事件。这一发展反映了对事件在多样化场景中更全面理解的转变,为多模态事件抽取(MMEE)的发展奠定了基础。

定义10:多模态事件抽取。MMEE同时分析文本数据(如句子或段落) x l = { w 1 , w 2 , . . . , w n } x_l = \{w_1, w_2, ..., w_n\} xl={w1,w2,...,wn}和视觉数据(如图像或视频) x v x_v xv,两者可能都带有预定义的事件类型 Y e Y_e Ye和参数类型 Y a Y_a Ya。在多模态文档 D = { X l , X v } D = \{X_l, X_v\} D={Xl,Xv}中,事件提及 m m m被归类为某种事件类型 y e y_e ye,并通过触发器识别出来,该触发器可以是一个单词 w w w、图像 x v x_v xv或两者。该任务还扩展到提取和分类文档中的所有事件参与者(即参数),将每个参与者分配给特定的参数类型 y a y_a ya。参数基于文本跨度或图像中的对象边界框来确定,并明确标注它们的位置。

方法:一些研究【404】【407】【408】专注于多模态事件抽取(MMEE)中的区域特征优化。例如,WASE【404】利用多模态文档的图形表示来实现跨模态事件共指和图像-句子匹配,针对多模态事件标注稀缺的问题,提出一种弱监督方法,结合了已标注的单模态语料库和图像-字幕对齐数据集。JMMT【408】采用多实例学习来评估区域与句子的组合,识别出跨视觉和文本模态的关键事件区域并实现事件关联。CAMEL【407】通过聚焦每个对象边界框内的三个特定区域,平均编码嵌入特征,以便更好地提取参数。最近的研究进展强调通过对比学习(CL)【405】【409】【410】来优化表示。具体而言,CLIP-EVENT【405】对比了图像和事件感知的文本描述,用于训练视觉语言模型(VLMs);CoCoEE【409】通过根据事件频率加权的样本来进行CL;TSEE【410】对齐了光流与事件触发器和类型,发现相似的运动模式与相同触发器之间存在很强的关联,并在多层次对比学习中观察到这种关联。此外,新兴的研究探索了零样本【406】和少样本【411】方法,以增强模型对新数据或稀疏数据场景的适应性。

资源和基准

  1. M2E2【404】:包含来自美国之音网站(2016-2017年)的多媒体新闻文章,涵盖军事、经济和健康等广泛主题。
  2. VOANews【405】:通过从多个新闻网站获取事件丰富的图像标题而构建,旨在为图像检索任务提供具有挑战性的基准。
  3. VM2E2【408】:首个用于MMEE的文本-视频数据集,使用YouTube搜索事件类型和新闻来源名称,重点关注美国之音、BBC和路透社等来源。
  4. TVEE【409】:包含来自On Demand News频道的国际新闻视频和字幕,与ACE2005基准的部分事件类型对齐。

评估指标

  1. 精确率(P):正确识别的实体(或关系)与总识别实体(或关系)数的比率。例如,在MNER中,它反映了从文本和多模态数据中准确识别的命名实体比例。
  2. 召回率(R):正确识别的实体(或关系)与数据集中总相关实体(或关系)数的比率。例如,在MMEE中,它衡量了从文本和多模态内容中提取实体的准确性。
  3. F1分数:平衡精确率和召回率,为二者提供一个全面的测量。例如,在MMRE中,它提供了系统在辨别文本中实体关系的表现,综合了精确率和召回率的考量。

讨论13:最近在这些任务中的进展表明,研究逐步趋向于统一的模型设计,已在多项研究【377】【393】【396】【501】【502】中有所体现。在一些MMEE数据集(如VM2E2【408】)中,视觉模态缺乏直接的事件和参数标注,使得视觉特征在基准评估中更多作为辅助元素。然而,当前流行的多模态F1分数主要侧重于基于文本的事件类型分类,忽略了对视觉元素贡献的评估。这种情况突显了未来研究需要开发更平衡的多模态评估指标,全面整合视觉和文本成分。展望未来,随着多模态大模型(MLLMs)及其零样本抽取能力的兴起【200】【503】,这预示着生成式方法将成为主流,这一转变推动了MNER、MMRE和MMEE向更复杂、专门化、和本质上更全面的多模态抽取任务扩展的需求。

V-C MMKG 融合

互联网中异质数据的激增促使了大量独立的多模态知识图谱(MMKG)的创建。将这些来自不同数据源的MMKG整合在一起至关重要,因此,MMKG融合成为了MMKG构建过程中的一个关键阶段【504】。该过程涉及多种任务,包括多模态实体对齐(Multi-Modal Entity Alignment, MMEA)、实体链接(Entity Linking, MMEL)以及实体消歧(Entity Disambiguation, MMED)。

V-C1 多模态实体对齐

1) 多模态实体对齐:
实体对齐(Entity Alignment, EA)在知识图谱(KG)整合中起着关键作用,旨在通过实体的关系、属性和文字(表面)特征,将不同知识图谱中的相同实体进行匹配。具体而言,符号逻辑方法【505】【506】应用手动定义的规则,如逻辑推理和词汇匹配,来指导对齐过程。基于嵌入的对齐方法【507】-【514】则利用学习得到的实体嵌入来加速对齐,避免了对预定义启发式规则的依赖。多模态实体对齐(Multi-Modal Entity Alignment, MMEA)引入了来自多模态知识图谱的视觉数据,将每个实体与图像关联,以增强实体对齐效果【54】。

定义11:多模态实体对齐
一个多模态知识图谱(MMKG)可以表示为 G = { E , R , A , T , V } G = \{E, R, A, T, V\} G={E,R,A,T,V},其中 T = { T A , T R } T = \{T_A, T_R\} T={TA,TR}。给定两个对齐的A-MMKGs G 1 = { E 1 , R 1 , A 1 , V 1 , T 1 } G_1 = \{E_1, R_1, A_1, V_1, T_1\} G1={E1,R1,A1,V1,T1} G 2 = { E 2 , R 2 , A 2 , V 2 , T 2 } G_2 = \{E_2, R_2, A_2, V_2, T_2\} G2={E2,R2,A2,V2,T2},MMEA 的目标是识别来自 E 1 E_1 E1 E 2 E_2 E2 中的实体对 ( e 1 i , e 2 i ) (e_{1i}, e_{2i}) (e1i,e2i),以表示同一个真实世界的实体 e i e_i ei。一组预先对齐的实体对用作参考,分为训练集(种子对齐集 S S S)和测试集 S t e S_{te} Ste,其比例由预定义的种子对齐比率 R s a R_{sa} Rsa 决定。与一个实体相关的可用模态表示为 M = { g , r , a , v , s } M = \{g, r, a, v, s\} M={g,r,a,v,s},分别表示图结构、关系、属性、视觉和表面(即实体名称)模态。

尽管关系、属性和表面模态可以归类为语言模态,但在MMEA社区中通常将它们视为独立的模态【55】【65】【415】【416】【418】【423】【425】【426】。此外,研究显示存在多种模态使用模式:一些研究仅关注属性和关系的类型【65】【425】,而另一些则通过使用PLM(例如BERT【175】)【420】【421】【515】-【518】或词嵌入(例如Glove【163】)【55】【65】【414】【415】【425】将其文本内容整合到实体表示中。此外,有些方法仅适用于每个实体只有一张图片的情况【55】【415】,而其他方法则能处理每个实体可能有多张图片甚至缺少图片的情形【63】【65】。
进展: 当前的多模态实体对齐(MMEA)研究根据其基本动机大致分为两个方向:

(i) 探索更优的跨KG模态特征融合方法。

  • MMEA【412】首次在2020年提出,作为一种通过多模态融合知识表示并对齐实体的方法,其目标是最小化实体整体嵌入之间的距离。
  • HMEA【413】将多模态知识图谱表示从欧几里得空间扩展到双曲流形中,提供了更为精细的几何解释。
  • EVA【55】通过注意力机制为每种模态分配不同的重要性,进一步引入了无监督的MMEA方法,利用实体之间的视觉相似性创建伪种子词典,从而减少对黄金标准标签的依赖。
  • MSNEA【414】利用视觉线索引导关系特征学习,并为对齐赋予有价值的属性权重。
  • MCLEA【415】应用KL散度来弥合联合和单模态嵌入之间的模态分布差异。
  • ACK-MMEA【417】提出一种属性一致的知识图谱表示学习方法,以解决由于不同属性引起的上下文差异。
  • PathFusion【421】利用模态相似路径作为信息载体,将不同模态的信息整合。
  • DFMKE【423】采用后融合方法,使用模态特定的低秩因子,增强了跨不同知识空间的特征集成,补充了早期融合输出向量。

考虑到每个实体周围的模态信息是不一致的,MEAformer【425】动态调整实体级模态融合的相互模态偏好。近期的工作如MoAlign【420】、UMAEA【65】和DESAlign【519】遵循了类似的设置。XGEA【422】则利用一种模态的信息作为补充关系信息,通过计算GAT层中的跨模态注意力来丰富实体嵌入。

(ii) 分析MMKG对齐中的实际限制和挑战。
Wang等人【424】解决了在对齐的多模态实体中图像类型不匹配的问题,他们使用预定义的本体和图像类型分类器过滤掉不一致的图像。MMKG中的视觉数据固有的不完整性构成了另一个挑战,例如许多实体缺乏图像(例如DBP15KJA-EN数据集中有67.58%的实体没有图像【55】)。此外,视觉图像的内在模糊性也会影响对齐质量(即,每个实体具有多个视觉方面,如§ III-B中详细说明的那样)。Chen等人【65】引入了MMEA-UMVM数据集,以研究高缺失模态率下训练噪声和性能下降的影响。他们进一步提出了UMAEA,它采用多尺度模态混合方法,配备循环缺失模态想象模块。鉴于源KG中的许多实体可能在目标KG中没有对齐的实体(即悬浮实体【520】、【521】),Guo等人【426】引入了实体合成任务,以条件或无条件地生成新实体,并提出了GEEA框架,该框架采用相互变分自编码器(M-VAE)来进行实体合成。为了克服获得初始种子的高成本和耗时过程,Ni等人开发了伪孪生网络(PSNEA)【427】,并配有一个增量对齐池,用于标记可能的对齐,减少了对数据交换和样本重新加权的依赖。

资源与基准测试:
(i) 第一个MMEA数据集包括FB15K-DB15K(FBDB15K)和FB15K-YAGO15K(FBYG15K)【54】,分为三种数据划分: R s a ∈ { 0.2 , 0.5 , 0.8 } R_{sa} \in \{0.2, 0.5, 0.8\} Rsa{0.2,0.5,0.8}
(ii) 多模态DBP15K【55】: 这是DBP15K【56】的扩展版本,将DBpedia【12】和Wikipedia【37】中的与实体匹配的图像附加到原始的跨语言实体对齐基准上。它包含来自DBpedia的四种语言特定的知识图谱,提供三种双语设置( R s a = 0.3 R_{sa} = 0.3 Rsa=0.3),即DBP15K Z H − E N _{ZH-EN} ZHEN、DBP15K J A − E N _{JA-EN} JAEN和DBP15K F R − E N _{FR-EN} FREN。每个设置大约包含40万条三元组和1.5万对预对齐的实体对。我们在表IX中概述了使用这一系列数据集对最近的MMEA方法进行基准测试的结果。
(iii) Multi-OpenEA【63】: OpenEA基准【61】的多模态扩展版本,通过Google搜索为实体链接其前三个相关图像。
(iv) MMEA UMVM【65】: 包含两个双语数据集(EN-FR-15K,EN-DE-15K)和两个单语数据集(D-W-15K-V1,D-W-15K-V2),来源于Multi-OpenEA数据集( R s a = 0.2 R_{sa} = 0.2 Rsa=0.2)【63】以及DBP15K的三个双语数据集【55】。通过随机移除图像来引入视觉信息的变化,生成了97个不同的数据集划分。

讨论14:
采用超越模型架构的策略已被认可为提升性能的有效手段。例如,迭代训练【55, 415】通过每 K e K_e Ke个epoch(例如5)识别并添加跨知识图谱的实体对作为嵌入空间中的互为最近邻,从而逐步优化模型性能。若这些对在连续的 K s K_s Ks次迭代(例如10次)中仍保持互为最近邻,则确认将其加入训练集。同样地,STEA框架【522】可以用于生成额外的伪对齐对,从而扩充训练数据。此外,CMMI模块【65】可以整合到模型中以生成合成的视觉嵌入,从而减轻缺失图像的影响。

为确保公平评估,采用这些策略的模型应与未采用的模型分开进行评估。此外,在未来的研究中,方法比较时应仔细考虑实体名称(表面形式)的使用、计算复杂性、文本编码方法以及额外数据的整合等因素。

V-C2 多模态实体链接

实体链接(Entity Linking, EL)是多种应用中的关键组成部分【523–525】,包括问答系统、关系抽取和语义搜索。EL的主要目标是将文档中的文本提及与知识图谱(如Freebase【13】)中的对应实体关联起来。值得注意的是,提及不仅限于文本形式,还包括图像、音频和视频内容,所有这些内容都可以链接到知识图谱实体。最新的多模态实体链接(Multi-Modal Entity Linking, MMEL)研究发现,利用多模态信息可以显著提升传统EL方法的效果。

定义12:多模态实体链接。
一个多模态知识图谱(MMKG)表示为 G = { E , R , A , T , V } G = \{E, R, A, T, V\} G={E,R,A,T,V},其中 E = { e 1 , e 2 , … , e i } E = \{e_1, e_2, \ldots, e_i\} E={e1,e2,,ei}是实体集合。 M = { g , r , a , v , s } M = \{g, r, a, v, s\} M={g,r,a,v,s}分别表示图结构、关系、属性、视觉和表面信息。例如, x e 1 s x^s_{e_1} xe1s x e 1 v x^v_{e_1} xe1v分别表示 e 1 e_1 e1的名称和视觉信息。提及集合定义为 N = { m 1 , … , m i } N = \{m_1, \ldots, m_i\} N={m1,,mi},其中 { x m 1 s , … , x m i s } \{x^s_{m_1}, \ldots, x^s_{m_i}\} {xm1s,,xmis} { x m 1 v , … , x m i v } \{x^v_{m_1}, \ldots, x^v_{m_i}\} {xm1v,,xmiv}是对应的名称和视觉信息。MMEL的目标是基于多模态信息( x e 1 s , … , x e 1 v , x m 1 s , … , x m 1 v x^s_{e_1}, \ldots, x^v_{e_1}, x^s_{m_1}, \ldots, x^v_{m_1} xe1s,,xe1v,xm1s,,xm1v)确定实体和提及的链接,即 ( e i , m i ) (e_i, m_i) (ei,mi)

进展:
早期的MMEL研究【428, 430, 526】专注于融合和扩展多模态数据,例如合并来自媒体帖子的视觉和文本元素,以增强文本提及并预测对应的知识库实体。例如,DZMNED【428】利用知识图谱嵌入以及字词级和字符级词汇嵌入的混合策略,旨在熟练应对测试过程中识别以前未见过的实体的挑战。Zhang等【526】的研究则侧重于移除噪声图像以提高性能。后续研究进一步扩展了这些方法,探索了集成多样化多模态上下文的策略,并开发了更合理的多模态数据集【432, 434, 435, 527–530】。例如,GHMFC【432】采用门控融合和对比训练来改进提及表示,而MIMIC【435】则引入了一个多粒度交互网络以进行通用特征提取。AMELI【530】实现了一个实体候选检索管道,通过使用属性信息增强MMEL模型。
最近在MMEL中的探索主要采用(V)PLMs进行特征表示。
BERT【175】通常用于文本处理【434, 437】,而CLIP【486】被用于视觉编码【438, 439】。通常,这些(V)PLMs的大多数参数保持冻结状态,辅以专注的微调策略。在这些方法中,GEMEL【438】有效地结合了LLaMA【189】进行语言处理,并利用CLIP进行视觉编码,展示了GPT 3.5在MMEL中的潜力。杨等【434】提出了一个多提及MMEL任务,将同一上下文中的不同提及视为一个样本,并采用多提及协作排序方法进行测试,以揭示提及之间的潜在联系。潘等【436】提出了多模态项目-方面链接(Multi-modal Itemaspect Linking),专注于将短视频与短视频百科中的相关项目链接。GDMM【437】通过结合文本、图像和表格三种模态来处理MMEL,遵循多模态编码-解码范式。DWE【439】通过加入详细的图像属性(如面部特征和场景特征)来增强视觉特征,并使用维基百科描述丰富文本表示,弥合了文本和知识图谱实体之间的差距。
资源和基准测试
(i) SnapCaptionsKB【428】: 这是一个MMEL数据集,包含12,000对人工标注的图像-字幕配对,旨在捕捉多种多样的多模态交互。由于《通用数据保护条例》(GDPR)的限制,目前该数据集不可用。作为应对,Adjali等人【430】开发了一种从Twitter自动构建MMEL数据集的工具。
(ii) M3EL【527】: 该数据集包含181,240个与电影相关的文本提及和45,297张图像,提供了精细化的注释。
(iii) NYTimes-MEL【434】: 源自《纽约时报》【288, 531】的图像和字幕,专注于PERSON(人物)实体。使用StanfordNLP工具【532】在字幕中进行NER,其中一些实体被替换为昵称以构建提及。与【432】类似,它通过从WikiData【533】提取的图像和每个实体的14个属性进行丰富,排除了包含无效实体或无对应图像的样本。
(iv) 基于WikiData的数据集: 包括WikiDiverse【534】和WikiMEL【432】,这些数据集提供了涵盖不同主题和实体类型的人工注释的提及。WikiDiverse包含来自WikiNews中的体育和科技等类别的数据,而WikiMEL则收集了来自维基百科和WikiData的提及。

V-C3 多模态实体消歧

在许多研究中,由于方法论和任务设置上的相似性,实体链接(EL)和实体消歧(ED)常被视为同义概念【428】【435】。然而,区分二者仍然至关重要。EL包括识别和链接文本中命名实体到其知识图谱(KG)对应实体的广义过程,而ED则专注于在命名实体可能对应多个候选项时进行消歧。在ED任务中,每个数据样本通常包含一个命名实体及一组相似的候选项,突显了该任务在消除这些候选项间歧义的重点【428】。

在多模态实体消歧(MMED)中,方法不仅利用文本信息,还借助视觉信息来提高消歧效果。例如,DZMNED【428】使用卷积LSTM整合多模态数据;ET【430】应用了一种Extra-Tree分类器,以有效区分歧义候选项;IMN【433】采用元学习进行多模态知识获取,并运用知识引导的迁移学习策略,促进跨模态的协同表示抽取。

V-D MMKG 推理

MMKG数据本身通常包含缺失元素、错误和矛盾,因此推理在KG补全中起到至关重要的作用。在MMKG构建循环中,推理阶段位于信息抽取和融合之后,旨在增强模型的推理能力,并加深其对KG整体知识的理解。

V-D1 多模态知识图谱补全

多模态知识图谱补全(MKGC)在从现有KG中挖掘缺失的三元组方面起着重要作用。此过程涉及三个子任务:实体预测、关系预测和三元组分类,具体定义如下:

定义13:MMKG补全
一个MMKG可表示为 G = ( E , R , A , T , V ) G = (E, R, A, T, V) G=(E,R,A,T,V),其中 T = ( T A , T R ) T = (T_A, T_R) T=(TA,TR)。MKGC的目标是通过识别现有实体和关系之间缺失的关系三元组,丰富A-MMKGs中的关系三元组集 T R T_R TR,并利用属性三元组 T A T_A TA。具体来说,实体预测(Entity Prediction)确定查询中的缺失头/尾实体,如 ( h , r , ? ) (h, r, ?) (h,r,?) ( ? , r , t ) (?, r, t) (?,r,t);关系预测(Relation Prediction)识别缺失的关系,如 ( h , ? , t ) (h, ?, t) (h,?,t);三元组分类(Triple Classification)则评估给定三元组 ( h , r , t ) (h, r, t) (h,r,t) 的真实性。

方法
值得注意的是,当前大多数MKGC任务主要集中在实体预测上,这通常被称为链接预测(Link Prediction)。主流MKGC方法主要沿着两条路径发展:基于嵌入的方法(embedding-based)和基于微调的方法(FT-based)。考虑到MKGC与KGC方法的交叉性,本节还将讨论一些典型的KGC技术,以提供对MKGC更深入的理解。

嵌入式方法 从传统的知识图谱嵌入(KGE)技术【79】【361】演变而来,适应性地包括多模态数据,从而形成多模态实体嵌入。这些方法可分为模态融合、模态集成和负采样方法:

(i)模态融合方法
模态融合方法【459】【477】【535】将实体的多模态嵌入与其结构嵌入相结合,以估计三元组的合理性。早期的尝试,例如IKRL【51】,采用多个基于TransE的评分函数【79】进行模态交互。随后的发展包括TBKGC【440】、TransAE【442】和MKBE【441】,进一步整合了文本和数值属性等模态。RSME【443】引入门控机制以自适应选择模态信息,OTKGE【445】应用最优传输(optimal transport)进行多模态融合,而CMGNN【453】则采用了带有跨模态对比学习的多模态GNN。HRGAT【455】构建了用于多模态实体表示的超节点关系图,CamE【452】为生物知识图谱引入了三元组协同注意力模块,VISITA【68】开发了一种基于Transformer的框架,利用关系和三元组级别的多模态信息实现MKGC。
(ii) 模态集成方法
模态集成方法使用不同的模态训练独立的模型,并结合其输出进行最终预测。例如,MoSE【446】利用结构、文本和视觉数据训练三个知识图谱补全(KGC)模型,并采用集成策略进行联合预测。类似地,IMF【450】提出了一个交互式模型,通过实现模态的解耦和重组来进行稳健预测。

(iii) 模态感知的负采样
模态感知的负采样通过生成错误三元组来增强模型区分准确和可能错误的知识图谱三元组的能力。在知识图谱嵌入(KGE)训练过程中,模型通过正负样本将实体和关系映射为向量,负样本的战略选择和质量至关重要,以在正负实例之间实现平衡评分。多模态数据为KG提供了额外的上下文,提升了传统负三元组采样【79】,使得模型能够更有效地选择高质量的负样本,解决了KGC模型训练中的关键性能瓶颈。

具体来说,MMKRL【447】引入了对抗性训练用于MKGC,通过对模态嵌入添加扰动开创了对抗方法增强MKGC模型的先例。随后,VBKGC【444】和MANS【448】开发了细粒度的视觉负采样,使视觉与结构嵌入更紧密地对齐,以实现更细致的比较训练。MMRNS【449】引入了一种关系增强的负采样方法,采用可微分策略自适应地选择高质量的负样本。

基于微调(FT-based)的方法利用诸如BERT【175】和VisualBERT【179】等预训练的Transformer模型,充分发挥它们在多模态理解方面的优势,用于多模态知识图谱补全(MKGC)。这些方法将MMKG中的三元组转换为标记序列,并将其输入到预训练语言模型(PLM)中【536】。

(i) 判别式策略
判别式策略将KGC任务建模为分类问题,PLMs用于编码文本信息。作为这一领域的先驱,KGBERT【317】对BERT进行微调以执行三元组分类,通过模型的正概率评估三元组的合理性。随后的方法引入了其他任务,如关系分类和三元组排序【537–539】,或在KGC中探索提示微调【540–542】。与传统KGC相比,基于FT的MKGC方法更加强调模态融合。MKGC方法中,MKGformer【387】通过混合Transformer进行多级多模态融合,将MKGC作为掩码语言建模(MLM)任务来处理,通过结合实体描述、关系和图像来预测被掩盖的实体。SGMPT【454】扩展了MKGformer的功能,增加了结构数据的集成,使用图结构编码器和双策略融合模块。

(ii) 生成模型
生成模型将KGC框定为序列到序列的任务【543–545】,使用PLMs生成文本。KGLLaMA【546】和KoPA【547】探索了指令调优的大型语言模型(LLM)在生成式KGC中的应用,这是MKGC中相对未被深入探索的途径,展现了广阔的研究前景。

资源和基准

(i) 初期MKGC数据集
早期的MKGC研究主要使用已有的KG基准数据集,如WordNet(WN9-IMG【51】、WN18-IMG【443】)、MovieLens100K【441】、YAGO-10【441】和FreeBase(FB)【440】,并添加多模态信息。例如,WN9-IMG通过ImageNet获取图像。

(ii) 系统化MKGC数据集
Liu等人【54】将FB15K、DB15K和YAGO15K转换为MMKG,通过网络爬取的图像和数值模态数据进行扩展。表XI中列出了使用这些数据集评估(M)KGC方法的结果。Xu等人【449】基于WikiData和YAGO构建了MKG-W和MKG-Y,其中图像通过搜索引擎获取。

(iii) 多面向MKGC数据集
最新的MMKG包含更广泛的模态信息,展示了数据集向更复杂形式演进的趋势。例如,MMpedia【67】是一种基于DBpedia【12】的新型高质量MMKG,设计了过滤非视觉实体的流程,并通过文本和类型信息优化实体相关的图像。TIVA-KG【66】基于ConceptNet【16】,涵盖文本、图像、视频和音频模态,提出了三元组的对齐,以将符号知识与真实表征相结合。同样地,VTKG【68】为每个实体和关系添加了图像,并为每个实体和关系提供文本描述。

讨论 15
在MKGC中,使用VGG或BERT等预训练编码器提取模态信息是关键。嵌入式方法通常在训练时冻结这些编码器,并使用提取的数据初始化模态嵌入,而基于微调的FT方法则优化这些编码器,使其更贴合模型固有的知识和记忆。这导致嵌入方法对模态信息利用不足,而FT方法则难以处理复杂的KG结构信息。

此外,真实KG中缺失模态信息的挑战仍然显著。早期的解决方案包括随机初始化缺失模态嵌入,如早期研究所示【51】【440】。最近,MACO【549】引入对抗训练来解决这一问题,但现有方法依然基础,亟需更创新的方案。

V-D2 多模态知识图谱推理

MKGC方法通常集中于MMKG中的单跳推理,这可能限制了KG在多跳知识推断中的应用【550】。多模态知识图谱推理(MKGR)旨在实现MMKG的复杂多跳推理,当前仍处于早期研究阶段。

定义14:MMKG推理。MKGR预测缺失的查询元素,形式包括 (h, r, ?)、(h, ?, t) 或 (?, r, t),其中“?”表示缺失的元素。其目标是在A-MMKG的关系三元组集 T R T_R TR 中通过多跳推理路径来推断该元素,路径长度为 k k k 跳, k k k 为大于或等于1的整数。

MMKGR【456】结合门控注意力网络与特征感知的强化学习,在MMKG中实现多跳推理,受类比示例的指导。TMR【457】通过一种注意机制汇聚与查询相关的拓扑特征,生成无实体依赖的特征,以便在归纳和传导设置下进行有效的MMKG推理。MarT【458】提出了多模态类比推理的概念,类似于跨模态链接预测,但没有明确定义的关系。这一任务框架为 (e_h, e_t) : (e_q, ?),利用背景MMKG预测缺失元素“?”。其在MKGR中的分类源于其依赖另一个三元组来预测尾实体(或头实体),不同于传统MKGR,它不需要明确的推理路径。为便于这一任务,MarT提供了专用的数据集MARS和对应的MMKG MarKG。此外,他们开发了一种基于结构映射理论的模型无关基线方法,以应对这一独特的推理挑战。

随着该领域的持续发展,多模态知识图谱推理有望成为MMKG推理中的重要方向,提供丰富的机遇,为开创性发现和进步铺平道路。

V-E 基于 MMKG 的任务

在本节中,我们探讨了多模态知识图谱(MMKG)在下游任务应用中展现出显著影响的几个关键方向,具体涉及检索、推理、预训练和工业应用。

V-E1 检索

如§III-B所讨论的,若干MMKGs自然地支持与检索相关的任务。例如,ImageGraph【52】通过贝叶斯相似度加权边扩展到一定图深度,将查询连接到其前K个最近邻居;IMGpedia【53】采用RDF格式,将视觉描述符和相似性关系与来自DBpedia Commons的图像元数据相链接,支持基于视觉相似性、元数据或DBpedia资源的SPARQL检索;VisualSem【44】则使用神经多模态检索模型来处理图像和句子,以在知识图谱中检索实体,其中预训练的CLIP【486】作为编码器。Chen等人【368】通过在整个MMKG中搜索获得海报图像的知识来增强多模态命名实体识别(MNER),利用从帖子文本和MMKG中提取的(提及词,候选实体)对,通过迭代的广度优先遍历实现高效的图像知识检索。

在§IV-D中,介绍了MMKG驱动的跨模态检索方法,如MKVSE【338】,该方法使用WordNet路径相似度和共现相关性(如图9所示)对MMKGs中的模态内和模态间关系进行评分,通过基于图神经网络(GNN)的嵌入来改进图像-文本检索。Zeng等人【460】提供了一个多模态知识超图(MKHG)来链接MMKGs和检索数据库中的多样化数据。该模型通过多种超边构建的超图模块、多模态实例包选择模块以及多样化概念聚合器实现子语义适应,从而在图像检索中推进表示学习。Huang等人【459】提出了一个统一的持续学习框架,以MKGC作为目标任务,迭代更新MMKG,并随后预训练基于MMKG的视觉语言模型(VLM),将图像-文本匹配作为核心预训练任务,无需配对的图像-文本训练数据。
在这里插入图片描述

图9:我们展示了支持MMKG的图像-文本检索过程[338],并整合了§ III-B中概述的MMKG本体。为了简化,省略了所有URI前缀以及某些关系(sourceImg和targetImg)来自于PictureRelation(跨模态关系和内模态关系)实体。该实体的值表示内模态路径相似度或跨模态共现相关性,这对于训练模型(例如多模态GCN)以生成知识化的图像或文本表示至关重要。注意:在一个图片单元中包含多个图像的情况下,采用均值池化方法来得到统一的特征表示。

V-E2 推理与生成

在§IV-A和§IV-C中,我们强调多模态推理和生成任务通常需要广泛的专业知识,尤其是涉及到超出日常经验的长尾信息。在这些情境中,知识图谱(KGs)作为结构化的多样化知识库至关重要。然而,KGs与多模态任务之间仍存在显著差距,目前的方法往往依赖于间接手段,如模态转换来实现知识在多模态环境下的表示、检索和交互。

一个重要的挑战出现在需要视觉常识的任务中,由于跨模态对齐能力的限制,模型可能出现多模态幻觉问题(multi-modal hallucinations),如图12所示。最新研究【46】表明,MMKGs能够有效弥补这一差距,提升多模态方法的潜力,并为应对LLMs时代的多模态幻觉问题提供了坚实的解决方案。具体来说,Zha等人【46】引入了M2ConceptBase(一种多模态概念性MMKG,详细见§III-B),并开发了一个使用M2ConceptBase的流程,通过检索多模态概念描述和为大模型生成改进答案的指令,以提升基于知识的视觉问答(VQA)性能。

此外,Zhao等人【288】提出了一种基于MMKG的图像描述生成方法,将视觉对象与命名实体关联起来,并利用来自维基百科和谷歌图片的外部多模态知识进行补充。该MMKG经过图注意网络(GAT【289】)处理后,其最终层输出被输入到一个Transformer解码器中,从而提高了实体感知的描述生成精度。Jin等人【461】同样将MMKG引入到多模态摘要生成中,采用了类似的方法。

V-E3 预训练

基于§IV-E的内容,我们将重点转向基于MMKG的视觉语言模型(VLM)预训练,突破传统的KG方法。当前的VLM主要依赖于基本的图像-文本配对进行预训练,往往忽略了跨模态概念之间丰富的知识关联。为弥合这一差距,出现了两种典型的基于MMKG的方法:

(i) 三元组级方法:将三元组视为独立的知识单元,将(头实体,关系,尾实体)结构隐式嵌入到VLM的嵌入空间中。例如,Pan等人【462】提出Knowledge-CLIP,通过MMKG(如Visual Genome【49】和VisualSem【44】)将基于知识的目标融入CLIP框架。它通过CLIP编码器对文本和视觉实体及其关系进行编码,并通过多模态Transformer融合这些信息,使用基于三元组的损失函数来优化预训练,从而在多种多模态任务中提升了CLIP的性能。

(ii) 图结构级方法:利用MMKG中实体之间的结构化连接。在训练过程中,方法选择性地收集训练语料中每个实体的多模态邻居节点,通过图神经网络(GNN)或拼接技术来有效整合知识。Gong等人【64】聚合MMKG中各实体的多视角知识(即由特定关系连接的邻居节点的嵌入)以生成其知识表示,这些表示与实体的文本和视觉嵌入结合,并在CLIP的相似度计算过程中加入多模态知识预训练。Li等人【463】提出了GraphAdapter for CLIP,通过双模态结构知识图(包括文本和视觉知识子图,表示两种模态的语义及其关系)增强任务特定的结构知识,允许文本特征利用这些知识,从而在下游任务中提升了CLIP的分类器性能。

V-E4 科学领域的 AI 应用

科学领域的人工智能指的是将AI技术应用于科学领域,以推动发现、创新和理解。这种方法利用AI来分析、解释和预测复杂的科学数据,有效地补充了传统科学方法,并引入了先进的计算工具。在该领域内,MMKG(多模态知识图谱)的概念被扩展到超越传统的文本和图像模态,包含多种科学数据形式,例如分子、蛋白质、基因、药物和疾病信息【552】。这种更广泛的“多模态”定义不仅丰富了科学研究的范围和深度,还为MMKG领域注入了新的活力和潜在的应用价值。

在生物学领域,MMKG能够有效整合特定领域的数据源【553】,例如用于蛋白质的Uniprot【554】,用于小分子-蛋白相互作用的ChEMBL【555】,用于副作用的SIDER【556】,以及用于蛋白质相互作用的Signor【557】。这些精心整理的数据源为MMKG提供了坚实的信息基础。此外,利用NLP方法从大量文献中挖掘的数据【558】【559】进一步丰富了MMKG,提供了多样化的科学见解。在这些MMKG中,实体表示特定的生物元素,例如药物或蛋白质,关系则描述其经过实验验证的相互作用。这些链接通常会添加分子结构或外部标识符等附加属性,可以是有方向性的,以表示因果关系,例如药物引起副作用【560】。

然而,在建模复杂生物系统的过程中,MMKG在MKGC(多模态知识图谱补全)方面面临数据不完整的挑战,从而阻碍了下游应用的发展。为了解决这一问题,Xu等人【468】创建了一个基于协同注意力的多模态嵌入框架,将分子结构和文本数据结合起来。该框架包括一个三重协同注意力(TCA)融合模块,用于统一模态表示,以及一个关系感知的TCA模块,用于细致的实体-关系交互,从而增强了缺失链接的推理能力。

此外,生物学MMKG还拓宽了其在药物发现中的应用,不仅限于知识图谱补全,还利用丰富的图知识促进了高级任务。Lin等人【464】将DrugBank数据转换为RDF图,通过Bio2RDF链接各种生物实体,并提取三元组用于他们的KGNN框架。该框架预测药物-药物相互作用,通过聚合邻域信息将空间图神经网络方法适应于MMKG,从而有效地映射药物及其在MMKG中的潜在相互作用。

Fang等人【466】【467】开发了一个化学导向的MMKG,总结了元素知识和功能基团。他们引入了一种基于元素的图增强策略用于对比预训练,探索微观层面的原子关联。其方法在微调过程中整合功能提示,显著提高了分子特性预测,并且提供了可解释的结果。Zhang等人【465】构建了一个包含基因本体和相关蛋白的大规模MMKG。他们采用一种基于知识的对比学习和负采样策略来优化MMKG和蛋白质嵌入,从而增强蛋白质相互作用和功能预测。

Cheng等人【469】创建了一个用于蛋白质科学的MMKG,整合了基因本体和Uniprot知识库。他们开发了一个蛋白质分析系统,支持蛋白质结构、功能和药物分子结合相关的预测,同时支持生物问答功能。MMKG不仅作为直接查询和模式发现的工具,还在药物发现等领域中为多种计算任务提供了增强和优化性能的宝贵资源。

V-E5 工业应用

电子商务从多模态产品知识图谱(MMPKGs)中获得了巨大的优势,这些图谱将图像、文本和结构化知识整合在一起,提供丰富的产品表示,如图13所示。这种整合支持了产品管理、对比和推荐等关键应用。K3M【470】框架通过利用MMPKGs来提升产品表示,采用了如遮蔽对象预测、遮蔽语言重构和链接预测等技术,用于预训练和多模态知识整合,从而促进了电子商务平台的发展。Wang等人【472】提出了FashionKLIP,这是一种MMKG增强的视觉语言模型(VLM),专为电子商务领域而设计,通过将FashionMMKG集成到CLIP风格模型中进行图文检索。该方法采用对比学习来实现模态对齐,并通过FashionMMKG中的视觉原型进行概念匹配训练。

MKGAT【474】将MMKG应用于电影和餐馆推荐系统,利用协作式MMKG(CMMKG)将用户行为与多模态项目数据相结合。该模型采用特定于实体的编码器和图注意网络(GAT)进行实体表示,并利用TransE在知识空间中学习。CKGC【475】进一步将MMKG中的传统关系分为两种类型:描述性属性和结构性连接,通过跨模态对比学习来实现更有效的节点表示,以提升推荐效果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值