“知识图谱+”系列：知识图谱+强化学习

最新推荐文章于 2024-10-03 22:10:15 发布

ngl567

最新推荐文章于 2024-10-03 22:10:15 发布

阅读量6.5k

点赞数 5

分类专栏：人工智能遇上知识图谱文章标签：人工智能自然语言处理知识图谱机器学习强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ngl567/article/details/118390949

版权

泽宇个人一直认为强化学习是建模动态系统最好的方法之一，通过与环境的不断交互，在动作选择和状态更新的动态过程中逐渐达到优化目标。因此，本期泽宇将从知识图谱结合强化学习的角度介绍几个不同的研究方向的内容，包括知识图谱推理、自动驾驶、时序推理、对话式问答系统和推荐系统。

1 知识图谱推理

DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning. EMNLP 2017.

Wenhan Xiong, Thien Hoang, and William Yang Wang

核心贡献：这篇论文是最早将强化学习应用于知识图谱推理的研究。由于基于路径的知识图谱推理需要在知识图谱中找到能够从头实体走到尾实体的一条多跳路径，这个路径搜索的过程就可以看成是一个马尔可夫决策过程，因此很自然的可以想到用强化学习来建模这个马尔可夫决策过程。这篇论文通过巧妙的设计了一个奖励函数，保证在知识图谱推理中能够同时考虑精度、多样性和效率。

这个任务简单来说可以看成是一个简单的问答系统，给定一个实体和关系，智能体在不断交互中从知识图谱中找到一条连通给定实体和答案实体的路径，且这条路径能够很好的表示给定的关系。

了解强化学习基本概念的朋友应该知道，强化学习具体的方法主要有深度Q网络（DQN）和基于策略梯度的方法（Policy-based），其中基于策略梯度的方法更满足知识图谱路径搜索的任务要求，而基于策略梯度的方法最核心的几个组成部分包括：环境、动作（Actions）、状态（States）、奖励（Rewards）、策略网络（Policy Network）。接下来，针对这篇论文分别介绍这几个部分对应的内容。

环境：整个知识图谱就是强化学习任务中的环境，需要从知识图谱中找到满足目标的路径。

动作：所有的关系组成动作空间，每一步智能体选择“下一步走向何方”其实就是在选择当前实体关联的哪一个关系。

状态：智能体的状态就是智能体当前在知识图谱中所处的位置，状态向量包括当前实体embedding和当前实体与目标实体embedding的距离。

奖励：奖励可以评价当前所处状态的质量，这篇

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。