“知识图谱+”系列:知识图谱+强化学习

泽宇个人一直认为强化学习是建模动态系统最好的方法之一,通过与环境的不断交互,在动作选择和状态更新的动态过程中逐渐达到优化目标。因此,本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容,包括知识图谱推理自动驾驶时序推理对话式问答系统推荐系统

1 知识图谱推理

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning. EMNLP 2017.

Wenhan Xiong, Thien Hoang, and William Yang Wang

核心贡献:这篇论文是最早将强化学习应用于知识图谱推理的研究。由于基于路径的知识图谱推理需要在知识图谱中找到能够从头实体走到尾实体的一条多跳路径,这个路径搜索的过程就可以看成是一个马尔可夫决策过程,因此很自然的可以想到用强化学习来建模这个马尔可夫决策过程。这篇论文通过巧妙的设计了一个奖励函数,保证在知识图谱推理中能够同时考虑精度、多样性和效率。

这个任务简单来说可以看成是一个简单的问答系统,给定一个实体和关系,智能体在不断交互中从知识图谱中找到一条连通给定实体和答案实体的路径,且这条路径能够很好的表示给定的关系。

图片

了解强化学习基本概念的朋友应该知道,强化学习具体的方法主要有深度Q网络(DQN)基于策略梯度的方法(Policy-based),其中基于策略梯度的方法更满足知识图谱路径搜索的任务要求,而基于策略梯度的方法最核心的几个组成部分包括:环境动作(Actions)状态(States)奖励(Rewards)策略网络(Policy Network)。接下来,针对这篇论文分别介绍这几个部分对应的内容。

环境:整个知识图谱就是强化学习任务中的环境,需要从知识图谱中找到满足目标的路径。

动作:所有的关系组成动作空间,每一步智能体选择“下一步走向何方”其实就是在选择当前实体关联的哪一个关系。

状态:智能体的状态就是智能体当前在知识图谱中所处的位置,状态向量包括当前实体embedding和当前实体与目标实体embedding的距离。

奖励:奖励可以评价当前所处状态的质量,这篇

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值