实体对齐算法_知识图谱中的实体对齐方法及装置与流程

最新推荐文章于 2024-01-25 13:47:21 发布

weixin_39943750

最新推荐文章于 2024-01-25 13:47:21 发布

阅读量2.3k

点赞数

文章标签：实体对齐算法

本文链接：https://blog.csdn.net/weixin_39943750/article/details/111809033

版权

本发明提供了一种实体对齐方法，通过从多个平台获取实体训练集，利用实体的可用信息生成协同训练特征，进行模型训练，改善了基于知识表示学习依赖大量标注数据的问题，提高了实体对齐效果。方法包括实体信息抽取、特征生成、视图划分和协同训练，特别适用于知识图谱的实体消歧和融合。

摘要由CSDN通过智能技术生成

本发明涉及计算机领域，具体而言，涉及一种知识图谱中的实体对齐方法及装置。

背景技术：

在构建大规模知识库的任务中，需要处理大量来自多源知识库的实体数据。在构建知识库之初，首先需建立一个知识描述体系，然后向体系中挂载实体数据.由于不同知识库的信息来源不同，以及人工定义及校对的差异，语义上相同的实体在不同的知识库中会有不同的表现形式。具有相同条目名称的实体也许表示着语义上的同一事物，也许表示着两种事物。

在现有的实际运作过程中，主要通过两种方法进行实体融合：

1)传统实体对齐

传统的实体对齐方法主要通过属性相似度匹配的方式实现，利用有监督学习的机器学习模型，如：决策树、支持向量机、集成学习等。依赖实体的属性信息，通过属性相似度，进行跨平台实体对齐关系的推断。由于属性的类别不同，需要设计不同的属性相似度计算函数，且不同的领域需要设计不同的属性相似度函数。但是该对齐方式，存在以下缺点：a)耗费人力；b)难以在多领域间迁移；c)由于属性的表达是离散的，这种计算方式忽略了属性的语义相似度，限制了实体对齐的效果。

2)基于知识表示学习

通过将知识图谱中的实体和关系都映射低维空间向量，直接用数学表达式来计算各个实体之间相似度，例如transe方法等。

知识表示学习是使用建模的方法，将知识图谱中的实体和关系表示成为低维的向量，然后对其进行计算和推理。transe是最早的知识表示学习模型。它将每个三元组关系(h，r，t)表示成从头实体h到尾实体r的向量。transe希望三元组尾实体t应该尽量接近于头实体h与关系r的和，即h+r＝t.transe定义损失函数:‖h+r－t‖l1/l2，并在模型中使用随机梯度下降的方法对参数进行更新。传统训练知识库中三元组建模的方法参数过多，导致模型太复杂难以解释，并且需要很大的计算代价，很容易出现过拟合或欠拟合问题。而transe作为一种将实体与关系嵌入到低维向量空间中的简单模型，弥补了传统方法训练复杂、参数过多的缺点。虽然transe模型在大规模数据集上取得了很好的效果，但其只能针对一对一关系进行计算，而无法对一对多、多对一、多对多的复杂关系进行计算。因此，出现了很多对transe进行改进的模型，如transh、transr、transsparce、transa、htransa、ptranse等。与transe模型相比，这些新的trans系列模型能够计算知识库中更加复杂的实体关系建模，如一对多、多对一、多对多的关系。如transh、transr和transsparce模型都是将头实体h和尾实体t投射到另一个超平面上；transa和htransa则使用局部特征自适应的方式得到最优损失函数，无须事先指定参数的封闭候选值集合；ptranse是一种基于路径分布表示的方法，将实体、关系以及路径都在低维的向量空间中表示。

上述实体对齐关系推断方法均为单网络关系推断算法，近年来开始有基于知识表示学习的跨网络关系推断算法。但是，如果将知识表示学习算法直接应用到实体对齐任务中，采用多网络联合表示学习，并不能取得令人满意的效果。因为实体对齐是一种特殊的跨网络关系，需要分析并依据实体对齐关系的特点，设计面向实体对齐的联合表示学习模型。因此，目前已经有方法采用知识表示学习的方法进行实体对齐工作，并取得了较好的效果，如cross-kg和seea。其中cross-kg首次提出对两个知识图谱进行联合学习，这样能够利用两个数据源的互补信息进行关系推断。但该方式，存在以下缺点：a)仅仅通过知识表示学习建模语义信息，忽略了知识图谱的结构化属性信息；b)基于知识表示学习的方法依赖大量标注数据；c)未利用知识图谱中属性等结构化信息，限制了实体对齐的效果。

针对相关技术中的上述问题，目前尚未存在有效的解决方案。

技术实现要素：

本发明实施例提供了一种知识图谱中的实体对齐方法及装置，以至少解决相关技术中基于知识表示学习的方法依赖大量标注数据实体对齐不佳的问题。

根据本发明的一个实施例，提供了一种知识图谱中的实体对齐方法，包括：从多个平台中获取多个实体作为实体训练集；根据与所述实体训练集中各个实体相关的可用信息生成用于进行协同训练的特征，其中，所述特征用于指示多个实体中同一类可用信息之间的相似度；根据所述特征对基于协同训练的模型进行训练，并根据训练得到的模型判别待处理的实体对是否同义。

根据本发明的另一个实施例，提供了一种知识图谱中的实体对齐装置ÿ