中文文献：多模态知识图谱概述

唔西迪西爱学习

已于 2022-08-14 18:17:04 修改

阅读量1.7k

点赞数 2

文章标签：知识图谱人工智能机器学习

于 2022-08-14 17:09:55 首次发布

本文链接：https://blog.csdn.net/Jichangkai/article/details/126333732

版权

本文介绍了多模态知识图谱的概念及其构建过程，包括多模态数据的定义、信息抽取方法、多模态表示学习技术以及实体链接策略。探讨了如何整合文本、图像和声音等不同模态的信息来构建更为丰富和全面的知识图谱。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

多模态：同一实体的多种记录形式，同一实体虽然底层表征异构，但高层语义一致。数据之间存在语义差异与异质性。包括模式和数据，自上而下构造还是自底向上。

多模态实体链接：相同实体信息对齐。

需求：结合文本和视觉资源，增加噪声处理能力，扩大实体对齐和链接预测的范围，开展实体关系挖掘。

常规知识图谱已经做得很好了，特定领域尤其是中文方面的还不行。
可以弥补神经网络的不可解释性和数量方面的局限性。
专家系统是被淘汰的知识图谱。
医疗等领域需要解释性场景，知识图谱可以解释。

知识图谱把不同种类的信息连接在一起得到一个关系网络。
不断迭代修整；小规模实践；可视化图谱全貌。

知识图谱：基于图模型的关联网络知识表达。三元组描述客观世界中概念、实体及其关系，节点、边。

ontology本体：对概念和关系进行形式化描述，知识本体框架和三元组实例构成完整图谱。

多模态问题：语义鸿沟；异构鸿沟heterogeneity gap：指图像、文本等不同媒体的数据具有不同的特征表示形式，它们的相似性难以直接度量。且数据量大、数据分布稀疏，人工标注昂贵、数据缺失。

多模态学习：用深度学习的方法将多模态数据在同一高层语义表示空间进行对齐，以便进行对齐、比较和融合。一般把不同媒体的数据从各自独立的空间映射到一个第三方的公共空间中进行相似性度量，大多仅考虑两个模态数据，当同时面临三个或更多模态时，对于公共空间的寻找将面临一定的困难。

当前多模态主要在图像和文本。基于自然语言处理的：图像或文本作为实体或实体的属性，图像一般作为实体视觉的补充。其他信息以何种形式表示？现有一般文本实体链接其他模态的URL链接。基于计算机视觉的：在场景图谱基础上，分布式构建，场景图谱的图节点链接到文本知识图谱的相应实体或谓词

构建：信息抽取、知识融合、知识加工。

从无结构文本中抽取结构化（来源于链接数据或者数据库等的数据，通过图映射或者 D2R 转换的方法获取其中的实体以及关系）、半结构化（来源于表格、列表等有一定结构的数据，但还需要利用包装器进行处理才能获取知识）、非结构化（纯文本数据）数据。

对文本数据的信息抽取，主要有命名实体识别和关系识别两个模块。

除了文本，还有：

图像信息抽取
- 实体属性补充角度：利用关键词搜索对应图像进行补充，有局限性。
- 图像模态实体构建与视觉关系发现角度：主要关注在内容本身特征。细粒度图像目标识别。
声音
- 主要以实体属性形式存在，代表描述实体的一段音频。或者解析为文本用传统文本方法进行语义特征提取。

将文本或图像表示为计算机能理解的特征向量，减小模态信息的分布差距。

同一模态存在富模态信息和缺失模态信息的不平等情况，可以分为联合/协同两种表示：

联合表示：多个模态的信息一起映射到一个统一的多模态向量空间; 同模态共作用语义表示，指融合各单模态的特征表示，以获得包含各模态语义信息的多模态表示。
协同表示：将多模态中的每个模态分别映射到各自的表示空间，映射后的向量之间满足一定的相关性约束。
与模态共作用语义表示相反，模态约束语义表示：用一个单模态表示结果去约束其他模态的表示，以使其他模态的表示能够包含该模态的语义信息。它并非融合各输入的信息，而是通过将输入模态的表示映射到目标模态的语义空间中，使得映射结果与语义相同的目标模态的相似性大于语义不同的目标模态，此类代表性的神经网络包括前馈神经网络和递归神经网络。

从图谱构建角度，MMKG表示学习可分为：