GO FOR A WALK AND ARRIVE AT THE ANSWER: REASONING OVER PATHS IN KNOWLEDGE BASES USING REINFORCEMENT

最新推荐文章于 2024-04-17 09:36:27 发布

damuge2

最新推荐文章于 2024-04-17 09:36:27 发布

阅读量2k

点赞数 1

该文章介绍了MINERVA模型，一种利用强化学习在知识图谱中进行路径搜索以进行自动推理的方法。针对知识图谱的不完整性，MINERVA避免了预先计算路径的需求，通过智能体在知识图谱中的动态探索来寻找答案，当找到正确答案时给予奖励。模型中，状态包括当前节点、查询和未知答案，动作是图中的边，强化学习策略网络则指导智能体的决策过程。

摘要由CSDN通过智能技术生成

go for a walk and arrive at the answer: reason over paths in knowledge bases using reinforcement learning

来源

2018 ICLR MINERVA模型
Rajarshi Das, Shehzaad Dhuliawala, Manzil Zaheer
Luke Vilnis, Ishan Durugkar, Akshay Krishnamurthy, Alex Smola, Andrew McCallum
frajarshi, sdhuliawala, luke, akshay, mccallumg@cs.umass.edu
manzil@cmu.edu, ishand@cs.utexas.edu, alex@smola.org
University of Massachusetts, Amherst, Carnegie Mellon University
University of Texas at Austin, Amazon Web Services

背景

自动推理长久以来一直是人工智能的长期目标，自动推理能力指的是计算机具有从目前的证据推断出新的证据的能力。本文主要专注于知识图谱上的推理，知识图谱通常是不完整的，很多事实都没有在知识图谱中并且通常是可以根据图谱中的事实推断出来。本文的目标是机器自动化学习这样的路径，将这个问题建模为查询问答，问题的形式是 $e_s, r_q, ?)$ 。
在自动推理的研究工作中，主要分为三类：早期基于符号表示的推理，这类方法的泛化能力较差，被第二种基于向量表示的方法替代，一些使用张量分解或者神经网络的方法，这些方法可解释性差，并且不能够捕捉知识图谱中路径表示的链式推理。神经网络多跳模型通过在知识库路径（embedding）上解决上面的链式推理问题，但是这些模型都需要通过在知识图谱上进行随机游走获取路径作为输入。本文利用强化学习方法高效的在知识图谱上进行路径搜索，不需要预先计算路径。

模型

state: $S=(e_t, e_{1q}, r_q, e_{2q})$
observation: 环境完整的状态不是完全可见的，智能体知道当前所在位置 $e_t$ , 查询 $e_1q, r_q)$ ,　但是答案是不知道的 $e_{2q}$
action: $A_{s} = \{(e_t,r,v) \in E\} \bigcup \{(s, \emptyset, s)\}$
transition: $\delta(S,A) = (v, e_{1q},r_q,e_{2q})$
rewards: 如果agent 当前的节点是正确答案，则返回奖励１，否则是０

$策略网络：$
在这里插入图片描述
$a_{t-1}$ 是 $t - 1$ 时刻的action, $o_t$ 是 $t$ 时刻的observation

训练：
在这里插入图片描述

##代码
代码

damuge2

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
GO FOR A WALK AND ARRIVE AT THE ANSWER: REASONING OVER PATHS IN KNOWLEDGE BASES USING REINFORCEMENT

go for a walk and arrive at the answer: reason over paths in knowledge bases using reinforcement learning来源背景模型来源2018 ICLR MINERVA模型Rajarshi Das, Shehzaad Dhuliawala, Manzil ZaheerLuke Vilnis, Is...
复制链接

扫一扫