图谱入门学习

最新推荐文章于 2024-02-12 09:36:29 发布

爱科技Ai

最新推荐文章于 2024-02-12 09:36:29 发布

阅读量118

点赞数 1

文章标签：学习知识图谱

本文链接：https://blog.csdn.net/civiljiao/article/details/134337627

版权

1 图谱基础

1.1 知识图谱

知识图谱以结构化的形式描述客观世界中概念、实体及其关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。其本质上是一种语义网络，其中节点代表实体或者概念，边代表实体/概念之间的各种语义关系。

知识图谱可分为模式层与数据层，模式层存储的是经过提炼的知识，通常采用本体库来管理知识图谱的模式层，借助本体库对公理、规则和约束条件的支持能力来规范实体、关系以及实体的类型和属性等对象之间的联系。数据层主要是由一系列的事实组成，知识以事实为单位存储在图数据库。如果以“实体－关系－实体”或者“实体－属性－属性值”三元组作为事实的基本表达方式，则存储在图数据库中的所有数据将构成庞大的实体关系网络，形成知识图谱。

图 1 知识图谱

1.1.1 研究方向

知识图谱目前的研究方向可以大致分为四类：知识表征学习（Knowledge Represent Learning, KRL）、知识获取（Knowledge Acquisition）、时序知识图谱（Temporal Knowledge Graph, TKG）和应用（Knowledge-aware Applications）。

1.1.1.1 知识表征学习 Knowledge Represent Learning(KRL)

知识表征学习KRL也称为KGE、多关系学习、统计关系学习，是知识图谱的一个关键研究问题，它为许多知识获取任务和下游应用铺平了道路。

我们可以将KRL分为四个方面，为开发KRL模型提供清晰的工作流程。具体包括：

（1）表征空间：关系和实体的空间分布表示；

（2）评分函数：用于衡量事实三元组合理性的评分；

（3）编码模型：将表征进行编码；

（4）辅助信息：嵌入到方法中的其他相关信息。

1.1.1.2知识获取 Knowledge Acquisition

知识获取旨在从非结构化文本和其他结构化或半结构化源中构建知识图谱，补全现有的知识图谱，发现和识别实体和关系。构建良好的大规模知识图谱可用于许多下游应用程序，并通过常识推理为Knowledge-aware模型提供支持，从而为人工智能铺平道路。

知识获取的主要任务包括知识图谱补全、实体识别、实体对齐、关系抽取等面向实体的获取任务。

大多数方法分别实现知识图谱补全和关系提取两个任务。当然，这两个任务也可以集成到一个统一的框架中，如Han等人提出了一种联合学习框架，用于知识图谱和文本之间的数据融合，解决了知识图谱补全如何从文本中提取关系的问题。

还有其他与知识获取相关的任务，例如三重分类（triple classification）、关系分类（relation classification）和开放知识富集（open knowledge enrichment）等等，感兴趣的可以自行查阅相关文献资料。

1.1.1.3 时序知识图谱 Temporal Knowledge Graph(TKG)

1）时序信息嵌入 Temporal Information Embedding

2)动态实体 Entity Dynamics

现实世界的事件会改变实体的状态，从而影响相应的关系。为了改进时序范围推断，上下文时序范围轮廓模型（contextual temporal profile model）将Temporal scope问题表述为状态变化检测，并利用上下文来学习状态和状态变化向量。

3)时序关系依赖 Temporal Relational Dependency

关系链中存在时间依赖关系，例如，wasBornIn→graduateFrom→workAt→deadIn。

4)时序逻辑推理 Temporal Logical Reasoning

逻辑规则也被用于进行时序推理。

1.1.1.4 应用 Knowledge-aware Applications

丰富的结构化知识可用于AI应用程序。然而，如何将这些符号知识整合到现实世界应用程序的计算框架中仍然是一个挑战。

知识图谱的应用包括两个方面：

（1）in-KG应用：如链接预测、命名实体识别等；

（2）out-of-KG应用程序：包括关系提取和更多下游知识感知应用程序，例如问答和推荐系统。

下面具体说明：

语言表征学习 Language Representation Learning

通过自监督语言模型预训练的语言表征学习已经成为许多NLP系统的一个组成部分。传统的语言建模不利用文本语料库中经常观察到的实体事实，如何将知识整合到语言表征中已引起越来越多的关注。

知识图谱语言模型（KGLM）：通过选择和复制实体来学习并呈现知识。
问答 Question Answering

基于知识图谱的问答（KG-QA）用知识图谱中的事实回答自然语言问题。基于神经网络的方法表示分布式语义空间中的问题和答案，有些方法还进行符号知识注入以进行常识推理。

多跳推理（Multi-hop Reasoning）：处理复杂的多跳关系需要更专门的设计才能进行多跳常识推理。结构化知识提供了信息丰富的常识，这促进了最近关于多跳推理的符号空间和语义空间之间的常识知识融合的研究。
推荐系统 Recommender Systems

将知识图谱集成为外部信息，使推荐系统具备常识推理能力，具有解决稀疏问题和冷启动问题的潜力。通过注入实体、关系和属性等知识图谱的辅助信息，许多方法致力于使用基于嵌入的正则化模块以改进推荐效果。

文本分类和特定任务应用程序 Text Classification and Task-Specific Applications

知识驱动的自然语言理解（NLU）是通过将结构化知识注入统一的语义空间来增强语言表征能力。最近成果利用了明确的事实知识和隐含的语言表征。

对话系统 Dialogue Systems

问答（QA）也可以被视为通过生成正确答案作为响应的单轮对话系统，而对话系统考虑对话序列并旨在生成流畅的响应以通过语义增强和知识图谱游走来实现多轮对话。

医学和生物学 Medicine and Biology

知识驱动的模型及其应用为整合领域知识以在医学和生物学领域进行精确预测铺平了道路。医学应用涉及有众多医学概念的特定领域知识图谱。

其他应用

还有许多其他应用程序利用以知识驱动的方法。

（1）学术搜索引擎帮助研究找到相关的学术论文

Xiong等人：提出了带有知识图谱嵌入的显式语义排序，以帮助学术搜索更好地理解查询到的概念的含义。

（2）零样本图像分类受益于知识图谱传播和类的语义描述

1.1.2 未来发展方向

古往今来，众多学者已经进行了许多工作来应对知识图谱及其相关应用的挑战。然而，仍然存在一些开放性问题值得解决，是未来的研究方向。

1.1.2.1复杂推理 Complex Reasoning

知识表征和推理的数值计算需要一个连续的向量空间来捕捉实体和关系的语义。虽然基于嵌入的方法在复杂的逻辑推理上存在局限性，但关系路径和符号逻辑两个方向值得进一步探索。

一些有前途的方法，如循环关系路径编码、基于GNN的知识图谱传递消息以及基于强化学习的寻路和推理，正在用于处理复杂的推理。对于逻辑规则和嵌入的组合，最新的工作将马尔可夫逻辑网络与KGE相结合，旨在利用逻辑规则并处理其不确定性。

通过有效嵌入来实现概率推理以捕获不确定性和领域知识将是一个值得注意的研究方向。

1.1.2.2 统一框架 Unified Framework

知识图谱上的几种表征学习模型已被验证为等价，例如，Hayshi和Shimbo证明了HolE和ComplEx模型在具有特定约束的链接预测方面在数学上是等价的。

目前，对知识表征和推理的统一理解研究仍然较少，但是却很有价值。

1.1.2.3 可解释性 Interpretability

知识表征的可解释性是知识获取和实际应用的一个重要问题。研究人员已经为可解释性做出了初步努力。

然而，最近提出的神经网络模型取得了很高的性能指标，但是在透明度和可解释性方面仍然存在局限性。一些方法通过使用逻辑规则使神经模型和符号推理相结合提供一定可解释性。

可解释性可以说服人们相信模型的预测，因此，未来工作应该更多地提高可解释性，也相当于提高了预测知识的可靠性。

1.1.2.4 可扩展性 Scalability

可扩展性在大规模知识图谱中至关重要。计算效率和模型表达能力之间需要权衡，极少有工作是在超过100万个实体的知识图谱上进行的。

几种嵌入方法可以用来简化计算，降低计算成本，例如使用循环相关运算来简化张量积。然而，这些方法仍然难以扩展到数百万个实体和关系。

使用马尔可夫逻辑网络的概率逻辑推理是计算密集型的，因此很难扩展到大规模的知识图谱。最新的神经逻辑模型中的规则是通过简单的蛮力搜索生成的，这使得它在大规模知识图谱上更为力不从心。

要处理繁琐的深层架构和日益增长的知识图谱，还有很长的路要走。

1.1.2.5知识聚合 Knowledge Aggregation

全球知识的聚合是以知识作为驱动的应用的核心。例如，推荐系统使用知识图对user-item交互和文本分类进行联合建模，将文本和知识图谱编码到语义空间中。当前大多数知识聚合方法都使用了神经网络架构，如注意力机制和GNN。

Transformer和BERT大规模预训练模型及其变体极大地推动了自然语言处理的发展。

同时，最新的一项研究表明，对非结构化文本进行预训练的语言模型可以获得一定的事实知识，大规模的预训练可以作为一种直接的知识注入后续任务。然而，知识聚合仍然需要有效且可解释，不能用大模型蛮干。

1.1.2.6自动构建与动态生成 Automatic Construction and Dynamics

当前的知识图谱高度依赖人工构建，这是劳动密集型且经济成本高的工作。知识图谱在不同认知智能领域的广泛应用需要从大规模非结构化内容中自动构建知识图谱。

最新的研究主要是在现有知识图谱的监督下进行半自动构建。面对多模态、异构性和大规模应用，自动化构建仍然具有很大的挑战。

主流研究集中在静态知识图谱上，在预测Temporal scope有效性和学习时间信息和动态实体方面工作较少。许多事实只在特定时期内成立，动态知识图谱与捕捉动态的学习算法一起，可以通过考虑时间性质来解决传统知识表征和推理的局限性。

1.2 事件图谱

事件图谱以事件为基础信息的新型结构化知识表示方式，图谱中的节点表示事件提及，节点之间的边表示事件提及之间的时间关系和指代关系。

事件图谱是描述事件和事件之间的关系，最早是从事件抽取出发，按照事件之间关系进行图谱的构建，后来有一部分根据学科需求（情报学、金融学），研究的是特定的、具体的事件和事件之间的关系，另一部分，则将事件抽象化，逐渐变成事理图谱。

图 2 事件图谱

事件图谱是一个比知识图谱内涵信息更为丰富、领域性更强的一类知识库，事件抽取作为构建事件图谱的重要手段，旨在抽取得到事件，事件要素以及事件之间的关系等知识。事件图谱更偏向于舆情监测和文本分析，比如事件监测、预测与推理。

1.2.1 事件元素抽取

事件抽取任务，主要识别一段文本中事件触发词(trigger)、事件触发词所属类型(event type)、事件要素(argument)，其中事件要素包括每个要素涉及的角色(role)。

事件抽取任务可以分为事件检测和元素识别两个子任务

事件检测：也叫事件识别，通过识别文本中的事件触发词检测事件，并判断事件类型。

例如：生活-出生类型事件表示框架为{人物，时间，地点}

元素识别：也叫角色分类，根据事件表示框架判断文本中的实体是否为事件元素，并确定元素角色。

元素识别又可以分为触发词识别、事件类型分类、论元识别和角色分类四个子任务

1.2.2 事件抽取方法

基于模式匹配的事件元素提取

模式匹配方法是当前基于规则的事件抽取方法，可以分为有监督的模式匹配方法和弱监督的模式匹配方法两大类。

有监督的模式匹配方法依赖于人工标注语料进行事件模式学习，弱监督的模式匹配方法只需对语料进行预分类或制定种子模式的少量人工标注工作，然后自动进行事件模式学习。

基于机器学习的事件元素抽取

基于模式规则的方法很难胜任大规模复杂类型数据集上的抽取任务，与基于模式匹配的方法不同，机器学习方法将事件类别及事件元素的识别转换成为分类问题，主要核心在于是选择合适的特征，以及合适的分类器两个主要部分。

根据不同的学习方式，进一步分为基于流水线模型的时间抽取方法和基于联合模型的事件抽取方法，基于流水线的方法将事件抽取任务分为事件识别和论元角色分类任务两个独立任务，后者输入依赖于前者输出，论元角色分类任务的输入是识别出的触发词和所有候选实体。

基于神经网络的事件元素抽取

基于机器学习的事件元素抽取需要花费大量的时间去进行人工定义特征。神经网络和传统方法的不同之处在于特殊的特征表示和特征学习方式，它使用自动学得的连续型向量特征替换人工定义的离散型特征。

基于卷积神经网络的事件抽取

Chen等(2015)提出基于动态多池化卷积神经网络（DMCNN）的事件抽取方法，用词的分布式表示（Word Embedding）捕获语义信息，用CNN捕获句子层信息。考虑到CNN只能捕获一句话中最重要的信息，当句子中含有多个事件时可能会有信息丢失，因此，该模型依据触发词和元素的位置，动态切分卷积操作后的特征图，然后再分别对切分后的每部分做max-pooling，这样就能保存更多关键地事件信息。

基于循环神经网络的事件抽取

Nguyen等(2016)年利用双向LSTM，将事件抽取任务从分类问题变成了序列标注问题，抽取句子中的语义特征，然后联合句子结构特征同时抽取事件触发词和事件元素

基于多轮问答范式的事件抽取
使用多轮问答，来解决实体-关系抽取任务。每个实体类型和关系类型由一个问答模板来表征，通过问答模板提取实体和关系。答案是文本跨度对（span），使用现在标准的机器阅读理解(MRC)框架提取:预测给定上下文的答案范围。

1.2.3 事件抽取关键问题

事件抽取schema难定义

事件抽取的首要条件是预先定义好的待抽取的事件类型，在不同领域需要定义不同的事件类型。事件抽取不仅需要抽取文本中的事件实例并识别其类型，而且需要为每个事件实例抽取所涉及的论元赋予相应的角色。而标注一个这样的体系代价很大，因为需要在指定时间和参数角色类型之前检查大量数据，并为每个类型编写详细注释。

抽取范围难题

传统的事件抽取任务大多数基于句子层面，但一个事件可能涉及触发词和多个论元。实际情况下，一个句子很难包含触发词和所有的论元。所以，从单个句子中抽取很难得到一个事件的完整信息。

训练数据的缺失

机器学习和神经网路的事件抽取需要大量标注数据，而且可能因为标注的主观性而出现不一致的情况，因此标注数据难度很大。

1.3 事理图谱

事理图谱是描述事件之间演化规律和模式的事理逻辑知识库。结构上，事理图谱是一个有向图，其中节点表示事件，有向边表示事件之间的顺承、因果、条件和上下位等事理逻辑关系，与知识图谱中实体及关系大多是稳定的不同，事理图谱中关系大多是不确定的，以一定的概率进行转移，更适合一些后续意图的识别或辅助性推理，可以应用在事件预测、常识推理、消费意图挖掘、问答系统、辅助决策等。

1.3.1 事理图谱细节

1)知识图谱的研究对象主要是名词性实体及其属性和关系，而事理图谱的研究对象主要是谓词性事件及其逻辑关系

2)知识图谱中实体间是确定的关系而事理图谱中事件演化的逻辑关系是不确定的概率

事理图谱所要描绘的是一个逻辑社会，研究对象是谓词性事件及其内外联系。两者都是有向图的组织性质，在知识的确定性上，知识图谱中的知识是以事实三元组为存储型的、确定的，知识状态相对静态，变化缓慢，但精度要求极高，实时性要求极高。事理图谱中的知识时一个包含事件、论元集合、逻辑关系等的多元组，知识逻辑是不确定的，存在一种转移概率。在应用上，知识图谱可以完成when / who/ what/ where等常识问题。事理图谱可以回答Why/How等动态问题。传统概念之间的分类关系即上下文关系不同，事件与事件之间除了上下位等分类关系外，还存在非分类关系，包括组成关系、因果关系、并发关系、条件关系、排斥关系等，这些关系一起对现实动态知识种的逻辑知识进行了描述。下图主要列举了事理逻辑的几种类型主要包括因果事理、条件事理、反转事理、顺承事理、顺承事理、上下位事理、组成事理、并发事理共七类事理：

因果事理描述的是认知体系中的一种前因后果联系，前面一个事件会导致后面一事件的发生；条件事理描述的是认知体系中的一种条件结果关系，是一种预设与结果逻辑；反转事理往往描述的是认知体系中的一种互斥逻辑，是一种真假值逻辑；顺承事理描述的认知体系中的一种时间上的偏序关系，是一种先后动作逻辑；组成事理，刻画的是事件之间整体与部分的逻辑；上下位事理，描述的是事件在分类体系中一种逻辑；并发事理，描述的是事件在时间上的一种共生关系，指一个事件发生下另一个事件一定发生。