泽宇个人一直认为强化学习是建模动态系统最好的方法之一,通过与环境的不断交互,在动作选择和状态更新的动态过程中逐渐达到优化目标。因此,本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容,包括知识图谱推理、自动驾驶、时序推理、对话式问答系统和推荐系统。
1 知识图谱推理
DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning. EMNLP 2017.
Wenhan Xiong, Thien Hoang, and William Yang Wang
核心贡献:这篇论文是最早将强化学习应用于知识图谱推理的研究。由于基于路径的知识图谱推理需要在知识图谱中找到能够从头实体走到尾实体的一条多跳路径,这个路径搜索的过程就可以看成是一个马尔可夫决策过程,因此很自然的可以想到用强化学习来建模这个马尔可夫决策过程。这篇论文通过巧妙的设计了一个奖励函数,保证在知识图谱推理中能够同时考虑精度、多样性和效率。
这个任务简单来说可以看成是一个简单的问答系统,给定一个实体和关系,智能体在不断交互中从知识图谱中找到一条连通给定实体和答案实体的路径,且这条路径能够很好的表示给定的关系。
了解强化学习基本概念的朋友应该知道,强化学习具体的方法主要有深度Q网络(DQN)和基于策略梯度的方法(Policy-based),其中基于策略梯度的方法更满足知识图谱路径搜索的任务要求,而基于策略梯度的方法最核心的几个组成部分包括:环境、动作(Actions)、状态(States)、奖励(Rewards)、策略网络(Policy Network)。接下来,针对这篇论文分别介绍这几个部分对应的内容。
环境:整个知识图谱就是强化学习任务中的环境,需要从知识图谱中找到满足目标的路径。
动作:所有的关系组成动作空间,每一步智能体选择“下一步走向何方”其实就是在选择当前实体关联的哪一个关系。
状态:智能体的状态就是智能体当前在知识图谱中所处的位置,状态向量包括当前实体embedding和当前实体与目标实体embedding的距离。
奖励:奖励可以评价当前所处状态的质量,这篇