(12)MPNet:基于多策略网络的时态知识图补全

MPNet: temporal knowledge graph completion based on a multi-policy network | Applied Intelligence

1  引言

1.1  问题

        ①单个策略网络缺乏单独捕获实体和关系的动态和静态特征的能力。因此,它无法从多个角度全面评估候选人的行为。

        ②动作空间的构成是不完整的,常常将agent引向遥远的历史事件,而忽略了近期历史的答案。

        ③对于历史记录中没有出现的看不见的实体,现有的方法无法进行路径探索。有必要专门为这些看不见的实体构建新的行动空间,以促进它们的探索。

1.2  解决方案

       提出了一种基于多策略网络(MPNet)的时态知识图补全方法。

       具体地,①分别从静态实体关系、动态关系和动态实体三个方面构建策略,对候选人行为进行综合评价,促进高质量实体的识别,并帮助agent找到正确的答案。

        ②创建了一个更多样化的操作空间,使得智能体避免被困在遥远的历史中,使智能体在遇到未知实体时避免陷入遥远的历史,这增加了智能体找到目标实体的概率,提高了模型的预测性能。

1.3  相关概念

①时序知识图谱补全(TKGC)包括两个任务

        插值和外推。插值任务的目的是从过去推断缺失的事实,其中测试集中的时间戳存在于训练集中。外推任务旨在预测未来发生的事实,其中测试集中的时间戳超出了训练集。与插值任务相比,时间知识图补全中的外推任务更具挑战性,并且由于待预测事实的时间戳在训练集中不存在,因此具有更大的实际意义。为了实现这一目标,现有模型试图深入挖掘相关的历史信息,这些信息在一定程度上反映了相关实体的属性。

2  MPNet

2.1  符号介绍

·知识图谱G={G_1,G_2,...,G_T},其中GT=(E,R,F_t)表示时间戳t处的时序知识图谱快照。

E,R表示实体和关系的集合,F_t表示时间戳t下的所有事实(e_s , r, e_o, t)的集合。

时间戳t下的头、尾实体和关系

在时间戳t的动态嵌入

静态嵌入:e和r表示实体和关系。

(以下这个图麻烦、复杂、眼花缭乱,但下面静态动态策略内容都和它相关)

2.2  MPNet模型架构

架构简介:

        由策略网络和奖励机制作为两个主要组成部分组成。策略网络包括静态实体关系策略(SERP)、动态实体关系策略(DEP)和动态关系策略(DRP)三种策略。

        SERP基于实体和关系的静态特征对动作进行评分;DRP和DEP分别为实体和关系的动态特征对候选行为进行评分。

        通过动态嵌入模块实现实体和关系的动态嵌入。DEP使用注意力机制将候选动态实体信息聚合为代理状态的一部分,帮助代理关注有价值的实体。每个候选操作的分数是通过使用操作计分器模块将三个策略的输出与候选操作相结合来计算的。然后根据得分对候选动作进行抽样。得分与被抽样的概率呈正相关。奖励机制通过评估agent在K跳后的位置给出相应的奖励。该模型期望最终的回报尽可能高。

2.3  强化学习架构

        智能体(agent)在知识图谱中导航时使用的几种特殊类型的边(edges)。这些边允许智能体在图谱中移动,以发现隐藏的实体(entity)或关系(relation),从而帮助完成知识图谱。以下是每种类型边的详细解释:

这些特殊的边扩展了智能体在知识图谱中的移动能力,使其能够跨越时间边界、回溯历史以及利用已知关系来发现新的实体。这样的机制增强了智能体在知识图谱补全任务中的探索能力,提高了预测的准确性和效率。

        e_q是一个看不见的实体。回溯边缘用红色虚线表示,关系相关边缘用紫色虚线表示,时间边缘用黑色虚线表示。(为了突出基本边和简单起见,省略了反向边、自环边和其他子图结构)

        基于强化学习的方法可以表示为马尔可夫决策过程(MDP)这个过程由一个环境和一个代理组成。环境代表tkg本身,代理可以抽象地理解为指向实体的指针。最初,它指向查询头部实体的位置,随后根据策略在知识图上移动。理想情况下,它应该在特定数量的步骤后指向正确的实体位置。下面将详细介绍MDP的组成部分。

状态  S表示状态,S ={H,Q},其中H表示代理探索的历史信息,Q表示当前查询的信息。代理从查询实体出发,初始状态为S_0 ={H_0,Q}。具体来说,对于动态实体策略,输入状态表示为S_0 de ={H_0 de, C,Q},其中C表示当前基于注意力的表示。

动作  A表示动作空间的集合。

特别地,除了首次探索步骤之外,后续的探索步骤中都有一个自环动作,这样智能体可以选择是否留在原地。此外,由于可能有大量的动作,这篇论文设定了不同类型边的最大数量限制。详细请看下文。

状态转移  代理通过执行一个动作过渡到下一个实体,并获得一个新状态。状态转换函数表示为

奖励机制  是否到达目标实体。K跳后,如果代理到达目标实体,则奖励为1,否则为0。奖励以下列形式表示:

2.4  策略网络

目的:MPNet从多个角度评估动作的分数,以综合评估每个动作的分数,指导代理选择最合适的动作。静态实体-关系策略学习在长期历史中保持不变的实体和关系的特征。此外,考虑到时间的影响,分别为实体和关系设计了动态策略,以捕获它们随时间演化的语义属性。

2.4.1  静态实体-关系策略SEP

        第一步是记录agent在环境中的探索历史。一旦agent采取了k步,就利用LSTM来捕获历史路径,

        这部分内容较容易理解,先是对历史信息进行拼接通过LSTM捕获历史路径。如果是初始历史信息记录查询实体信息,不需要在初始时执行任何操作,关系部分由自循环边表示。

将当前记录的历史信息与查询信息结合得到agent在第k步的状态,表示为:

状态s_k s输入到一个两层MLP中进行编码,然后将编码后的状态与候选动作做点积,得到静态策略部分的得分如下:

a_i 表示的是静态候选动作 A_s^k 中的第 i 个动作,通过评分防止智能体偏向错误的探索路径。

2.4.2  动态实体策略DEP

接下来的下一状态:

同样,动态实体动作的候选分数可以计算如下:

2.4.3  动态关系策略DRP

与上一小节DEP相似。

2.4.4  评分函数

动态策略总评分:

静+动态策略总评分

2.5  多奖励机制

本研究将奖励分为三个部分:全局奖励R_g、基于频率的奖励R_f和效率奖励R_e。 

全局奖励

       代理的探索在走过固定的步数后结束,并评估代理的最终位置,以确定其是否与正确答案实体目标匹配。如果最终位置正确,奖励为1,否则为0。奖励公式为:

基于频率的奖励

效率奖励

       长路径会导致更多的噪声行为,现有的基于强化学习的静态KGC方法的性能通常在一到三跳内达到最好。与过去的研究一致,引入了效率奖励,以鼓励代理尽可能少地跳到目标实体。

p_length表示代理到达目标实体所需的跳数,并且长度小于或等于最大步数。

最终的奖励:

2.6 优化和训练

目标函数:

策略梯度法更新参数

  • 10
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
mpnet-base-v2是一种自然语言处理模型,它是PaddlePaddle的基础模型之一。微调指的是在已经预训练好的mpnet-base-v2模型上进行模型参数的调整和优化,以适应特定任务的需求。 进行mpnet-base-v2微调的主要目的是通过在特定任务上进行训练,使模型具有更好的性能和适应能力。微调可以通过在特定任务上进行更多的训练来提高模型的准确性和泛化能力。 在进行mpnet-base-v2微调之前,我们需要准备好特定任务的训练数据集。这个数据集需要与我们的任务目标相关,并且标注好相应的标签或答案。 微调的过程主要分为两个步骤:冻结层和微调训练。 首先,我们冻结mpnet-base-v2模型中的一些底层网络层,这些层经过预训练已经具备较好的特征提取能力,通常可以复用。冻结这些层可以减少我们需要调整的参数量,以提高训练效率和避免过拟合。 然后,我们对剩余的层进行微调训练。微调训练的过程就是在特定任务的数据集上对模型进行训练,通过调整模型参数来适应任务的需求。训练过程中,我们可以使用一些优化算法和技巧,如学习率衰减、正则化等,来进一步提高模型的性能。 为了得到一个较好的微调效果,我们还可以进行调参和验证,通过调整超参数来达到更好的模型性能。例如,我们可以调整微调训练的迭代次数、学习率等参数。同时,我们也需要使用验证数据集来评估模型在未见过的数据上的性能,以便进行调整和优化。 总的来说,mpnet-base-v2微调通过在特定任务上进行训练,使其更好地适应任务需求,从而达到提高模型性能的目的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值