Multi-Hop Knowledge Graph Reasoning with Reward Shaping

Multi-Hop Knowledge Graph Reasoning with Reward Shaping

来源

2018 EMNLP
Xi Victoria Lin Richard Socher Caiming Xiong
Salesforce Research
{xilin,rsocher,cxiong}@salesforce.com

背景

大型的知识图谱可以支持下游的许多NLP应用,例如语义搜索、对话生成,由于知识图谱的不完整性,知识图谱并不是非常实用,因此知识图谱上的推理非常重要,可以用来补充知识图谱。目前知识推理的方法主要分为了两类:一类是基于embedding的方法,另外一种是基于路径的方法。基于embedding的方法忽略符号的组合性,在比较复杂的推理任务上存在局限性。基于路径的方法,目前很多工作将多跳推理建模为一个序列决策问题,使用强化学习方法寻找有效的路径。

motivation:

目前很多工作将多跳推理建模为一个序列决策问题,使用强化学习的方法寻找有效的路径,MINERVA是其中非常重要的一个模型,它使用强化学习训练了一个端到端的模型用于知识图谱上的查询问答,给定一个关系和源实体,训练智能体在没有预先计算好路径的条件下在知识图谱上搜索候选答案。这种基于行走的查询问答在训练时有很大的挑战:

  1. 智能体到达一个正确的答案,但是在训练图中缺少到源实体的链接,因此不会获得任何奖励。(假阴)
  2. 没有正确的路径用于训练,智能体只会偶然的到达一个正确的答案(假阳)。

基于路径的问答框架存在上述两个问题,本文针对上面提到的两个问题进行了改进。1. 预训练一个目前最好的基于embedding的模型去估计一个软奖励对于目标实体的正确性没有办法确定 2. 随机的进行action dropout, 在训练的每一步随机的锁住外向边,来鼓励选择多样性的路径,淡化假阳的负面影响2. 没有正确的路径用于训练,智能体只会偶然的到达一个正确的答案(假阳)。基于路径的问答框架存在上述两个问题,本文针对上面提到的两个问题进行了改进。1. 预训练一个目前最好的基于embedding的模型去估计一个软奖励对于目标实体的正确性没有办法确定 2. 随机的进行action dropout, 在训练的每一步随机的锁住外向边,来鼓励选择多样性的路径,淡化假阳的负面影响

模型

问题定义: 对于给定的一个查询 ( e s , r q , ? ) (e_s, r_q,?) (es,rq,?) e s e_s es是一个源实体, r q r_q rq是感兴趣的关系,通过在知识图谱上搜索,得到可能的答案集合 E o = e o E_o={e_o} Eo=eo, 由于知识图谱的不完整性, ( e s , r q , e o ) (e_s, r_q,e_o) (es,rqeo

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值