基于关系抽取的相似度计算

一、面向冶金设备运维履历的知识图谱构建与语义相似性度量研究

研究目标:在设备维修时,快速检索得到与设备调查单相似的运维履历文档。

现在研究不足:传统的基于字符距离或者词向量的方式,没有考虑到运维文本语句结构及深层语义问题。

针对不足,提出的使用基于深度学习的图谱向量方法度量不同运维履历文档的相似性,计算过程中因TransE只能编码单个三元组,全局表示能力较弱,文中使用的是图神经网络,将其转换为向量形式。

1.构建设备树。预先定位故障调查单的故障设备主体类或实例集合,之后在以此为基准进行文档的语义相似性度量。

其实,构建了一个知识图谱,如果构建KG的话,三元组是不可缺少的,计算图谱的相似度,是通过图神经网络??

在这里插入图片描述

二、KG中的实体相似度计算研究

现研究不足:
在这里插入图片描述在这里插入图片描述
研究目标:废除了实体数据和训练数据,实体数据中给出了实体的所有属性,训练数据给出的部分实体对之间的相似度得分。

实体的属性按照格式分为了3种:数值型、列表型、文本型。

  1. 数值型就是数值作为实体的属性。
  2. 列表型是属性是多个元素构成的,比如一部电影的演员列表
  3. 文本型属性是一段文字信息。

整个研究过程是值得学习的

研究假设

在计算相似度之前,先定了假设条件:
1、不同类别的实体对相似度是0
2、实体与自身的相似度值是:4
3、两个实体的相似度满足对称性。
在数据预处理阶段,作者发现有些数据是不满足之前定义的假设条件的,将这些不满足的数据归类为噪声数据。
比如:在这里插入图片描述

研究方法

第一步:特征生成

数值型属性数据:在这里插入图片描述
列表型数据:Jaccard
文本型数据:cosine sim

在文档层面使用了LDA模型得到了文档的主题,在计算主题相似度上,一种是使用余弦度,一种使用Hellinger距离(用来度量两个概率分布之间的相似度)计算相似度。

第二步:模型选择

在第一步中是选择了相似度测评指标和指标之间的相似度计算方法,第二步中是确定每个指标之间的集成方法,也称为模型选择。
在这里插入图片描述

三、基于司法案例知识图谱的类案推荐

原文链接:https://jns.nju.edu.cn/article/2021/0469-5097/0469-5097-2021-57-6-1053.shtml
第一步是使用的Bi-LSTM -CRF 模型进行关系抽取得到了三元组,然后表示成图谱形式。
第二步:实现基于图谱的相似类案推荐。
(1)首先对传统的TransH算法进行改进,提出基于图聚类向量优化的案件知识图谱表征学习方法(FU⁃TransH),旨在提高实体向量化的准确性;(2)在构建的司法案例知识图谱基础上,利用改进的向量表征方法(FU⁃TransH)对司法案件知识图谱中所有的实体和关系进行向量化表征(Embedding)学习;(3)在FU⁃TransH方法构建的知识图谱向量表征基础上,给出基于欧式距离的相似案件计算方法;(4)在上述相似案件计算的基础上,给出相似案件的推荐过程.

在这里插入图片描述
具体的,在使用知识图谱做案例推荐的时候,具体过程如下:
(1)对当事人陈述的供词进行文本处理;(2)将分词后的当事人陈述组成三元组;(3)抽取法律裁判文书中的关键信息;(4)根据抽取的关键信息建立知识图谱;(5)将基于陈词供述生成的三元组和基于裁判文书生成的知识图谱进行实体对齐,此处采用余弦相似度度量方法并结合人工干预的方法实现实体对齐;(6)利用改进的TransH算法将案件向量化;(7)根据欧式距离求解Top⁃m个与当事人相似的案例并推荐出来.

在这里插入图片描述

个人解惑

知识图谱中的transH算法和图神经网络有什么关联?

TransH算法是知识图谱表示学习中的一种算法,它是Trans系列算法之一。TransH算法的主要思想是将关系向量投影到一个超平面上,从而将实体和关系映射到不同的空间中。这种方法可以有效地解决一对多和多对一的关系问题。图神经网络是一种用于处理图结构数据的深度学习模型,它可以对每个节点的领域信息进行聚合,从而更新当前节点的表示。在知识图谱中,图神经网络可以用于实体分类、关系预测等任务。因此,TransH算法和图神经网络可以结合使用来进行知识图谱表示学习¹⁴⁵。

Source: Conversation with Bing, 5/25/2023(1) 网络表示学习和知识图谱表示学习有什么联系? -
知乎. https://www.zhihu.com/question/269781335 Accessed 5/25/2023. (2)
“知识图谱+”系列:知识图谱+图神经网络 - 知乎. https://zhuanlan.zhihu.com/p/358119044
Accessed 5/25/2023. (3) 知识表示学习Trans系列梳理(论文+代码) - 知乎 - 知乎专栏.
https://zhuanlan.zhihu.com/p/144412694 Accessed 5/25/2023. (4)
基于知识图谱的表示学习——Trans系列算法介绍(一)_transr算法_angel_峰起云涌的博客-CSDN博客.
https://blog.csdn.net/sinat_28978363/article/details/88633698 Accessed
5/25/2023. (5) 知识图谱——TransE模型原理_隔壁的NLP小哥的博客-CSDN博客.
https://blog.csdn.net/hei653779919/article/details/104278583 Accessed
5/25/2023. (6) 知识图谱向量化表示-trans 系列算法 - 知乎 - 知乎专栏.
https://zhuanlan.zhihu.com/p/371527445 Accessed 5/25/2023.

KG和图神经网络之间的关系?

kg中应用广泛的表示学习更偏向关系建模,网络表示更加侧重度量图结构信息。两种方法的模型可以在相关任务通用,但算法性能差别较大。

图神经网络:个人认为,图神经网络最直观的理解就是对于一个图结构的输入数据,由于每个节点和其邻域中的节点都具有紧密的关联,因此用图神经网络可以将每个节点的领域信息聚合起来更新当前节点的表示。但是知识图谱和传统的图网络结构最大的不同在于,知识图谱是一个多关系图数据结构,每对节点之间连接的边的类型可能是不一样的,因此,针对知识图谱需要设计更特殊的图神经网络来建模知识图谱。(个人总结:图神经网络更关注于图的结构

知识图谱嵌入:知识图谱嵌入是将知识图谱中的实体和关系转换为数值化的表示,可以看成一个基础任务,学习出的嵌入表示可以用于各种和知识图谱相关的任务。(个人总结:KG中更加关注关系建模信息
https://zhuanlan.zhihu.com/p/358119044

KG的表示学习方法:

1 知识图谱表示学习
Modeling Relational Data with Graph Convolutional Networks. ESWC 2018.

Michael Schlichtkrull, Thomas N. Kipf(GCN的作者), Peter Bloem, Rianne van den Berg, Ivan Titov, Max Welling.

核心贡献:这篇论文是图卷积神经网络(GCN)的发明者参与的一项研究,最大的贡献在于开创性地将GCN用于建模知识图谱这类多关系图网络,而以前的所有图神经网络的模型都只能建模只具有单一关系的图网络。

为了对多关系图网络进行建模,论文提出了多关系GCN,在学习每个实体的表示时,针对当前实体关联的每个关系分别用GCN执行聚合操作,具体过程如下图所示:
在这里插入图片描述

Trans系列得到知识表示:知识表示学习Trans系列梳理(论文+代码)
https://zhuanlan.zhihu.com/p/144412694

标准相似度计算的话,如果想到用到关系抽取的结果,一个是把三元组连起来,放在知识图谱中,通过文本分词处理,定位到KG中的子图,在计算KG相似度测评得到文本的相似度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
PFN(Position-aware Few-shot Network)是一种用于关系抽取任务的模型,其主要思想是使用少量的标注数据和无标注数据来训练模型,以增强模型对未知关系的泛化能力。下面是PFN模型的关系抽取代码讲解: 1.数据预处理 PFN模型的输入是一句话和两个实体,我们需要对原始文本进行预处理,将其转换为模型所需的输入格式。具体来说,我们需要将文本分词、提取实体、构建实体对,并将文本和实体对映射为ID序列,最终将其打包为PyTorch的数据集格式。 2.模型搭建 PFN模型主要由三个部分组成:编码器、匹配器和分类器。编码器用于将文本和实体对转换为语义向量,匹配器用于计算实体对之间的相似度,分类器用于预测实体对的关系。具体来说,编码器可以使用BERT等预训练模型或自定义的文本表示模型,匹配器可以使用基于注意力机制的方法或简单的余弦相似度计算,分类器可以使用全连接层或多层感知器等。 3.模型训练 PFN模型的训练过程可以分为两个阶段:预训练和微调。预训练阶段使用大量的无标注数据来训练编码器和匹配器,微调阶段使用少量的标注数据来微调分类器。在预训练阶段,我们可以使用无监督的相似度损失函数(如NT-Xent Loss)来训练模型,以增强模型对未知关系的泛化能力。在微调阶段,我们可以使用交叉熵损失函数来训练模型,并使用梯度下降等优化算法来更新模型参数。 4.模型评估 PFN模型的评估指标通常使用准确率、精确率、召回率和F1值等。我们可以使用标准的关系抽取数据集(如SemEval-2010、TACRED等)来评估模型的性能,并使用预训练模型和微调模型进行比较,以验证模型的泛化能力和性能提升效果。 以上是PFN模型的关系抽取代码讲解,需要注意的是,PFN模型的实现细节可能会因不同的任务而有所差异,因此在具体实现过程中需要根据具体情况进行调整和优化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

YingJingh

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值