【论文笔记】M-Walk: Learning to Walk over Graphs using Monte Carlo Tree Search

最新推荐文章于 2024-01-21 03:43:29 发布

*晴儿*

最新推荐文章于 2024-01-21 03:43:29 发布

阅读量987

点赞数 2

分类专栏：强化学习推荐系统论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34919415/article/details/107085050

版权

强化学习同时被 3 个专栏收录

8 篇文章 2 订阅

订阅专栏

4 篇文章 1 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

本文用了强化学习，在知识图谱上游走，寻找目标节点。

一、简介

大概意思就是，在知识图谱上，给出一个起始节点和查询（query） $n_{s},q$ ，然后找到目标节点 $n_{T}$ 。

$G=(N,\varepsilon )$ 图G包含节点 $N=\{n_{i}\}$ 和边 $\varepsilon =\{e_{ij}\}$ 。

如下图，给出起始节点Obama，query：citizenship，目标节点是USA。

我们要学习一个方法 $f(G,n_{s},q)$ 来预测 $n_{T}$ 。

我们我们将f作为强化学习的agent。他要学习搜索策略（search policy）

训练的时候，我们给出 $(n_{s},q,n_{T})$ ，让f自己学习路径，如果他走到 $n_{T}$ ，就给他一个正的reward（1分），其他时候是0分（没停或者停错地方都是0）。学完后只给出 $n_{s},q$ ，预测 $n_{T}$ 。（这个reward只用在Q learning的时候了）

所以设计了一个神经网络的agent，叫M-walk。用RNN将历史路径转化为一个向量，用来学policy和Q function 。reward稀疏，所以用带蒙特卡洛树搜索的RNN，生成路径。

二、用马尔科夫决策过程来进行图的游走

（S，A，R，P） s是state，a是action，r是reward function，p是state transition probability

初始状态s0和下一个状态的表示，如上图所示。

$\varepsilon _{n_{t}}$ 是连接点nt的所有边， $N_{n_{t}}$ 是nt的所有邻居节点。

st包括1）到t时刻所有走过的节点（包括他们的邻居和邻边） 2）动作 3）初始query q构成。

集合S由所有可能出现的st构成。

在状态st，agent有以下动作可以选择：1）选择 $\varepsilon _{n_{t}}$ 中的一条边，他连接到点 $n_{t+1}$ 2）选择STOP，则 $n_{t}$ 就是要预测的 $n_{T}$ 。通常是随着时间t而改变的。

t时刻的动作集合由下图表示，A是所有时刻的At的并集。

选择stop之后，输出

如果输出是 $n_{T}$ （即输出了正确的答案），则reward=1，否则为0.

这可以看出来，reward是非常稀疏的，只有走到正确的位置才有reward。但是由于图是已知静态确定的，所以如果确定了上一个状态和动作，那么下一个状态时确定的。（文中说这有助于解决reward稀疏。）

π是policy（给出状态s，选择动作a），Q是Q function（在状态s下选择动作a，它的Q value是多少，即之后的长期收益是多少）

三、M-walk agent

3.1 π和Q的神经网路结构

用RNN获得当前状态st的表达ht

ht分为三个部分：

1）将上个时间的状态、动作、当前节点，综合。

2）综合了nt的邻居n'节点，以及nt和n'之间的边e，代表第n'个候选动作（不包括STOP动作）

3）综合了 $\varepsilon _{n_{t}}$ 和 $N_{n_{t}}$ ，用来判断STOP的概率。

所以π和Q的计算。

u0是将hst，hAt通过一个full-connected neural network。（这里没说这两个h要怎么整合到一起，应该是拼接）

un'是hst和hn't做内积（即点乘，对应位相乘，求和）

u0（STOP的分数）,un'（邻居的分数）都是一个数字

Q是对每个数字做sigmoid

（这里做sigmoid，将q value化到0-1，因为这个模型的分数只有0和1,q value=0代表在当前s采取a，预期的总reward是0，是找不到的，如果是1代表未来可能找到。）

π是做温度参数为τ的softmax

关于温度参数

3.2 训练算法

传统的使用蒙特卡罗方法的REINFORCE，需要sample一个完整的序列，sample的效率很低，而且reward稀疏。所以sample的时候使用PUCT算法的变体。

π是上面提到的策略分数（softmax算的），c和β用来控制探索的程度。N是visit count。W是走(s-a)这条边上的蒙特卡罗树的total action reward。

PUCT算法最开始倾向于选择在状态s下出现少的action（式子的前半部分），后来倾向于选择分数高的（式子的后半部分）。

当PUCT算法选择了STOP，或者到达了最大探索数（应该是强行选择STOP），则停止。使用

用下面的式子，更新上一个式子中的N和W。γ是衰减因子（discount factor）.

主要目标就是多生成reward为正的路径。

然后用DQN网络，寻找更好的π就是max Q

（由于Q和π共享参数，且算的时候只用了sigmoid和softmax这种没参数的函数，所以训一个就行）

莫烦python-DQN网络代码详解（pytorch）

3.3预测算法

已知（ns，q）求nT。利用π在G上寻找nT。

一种方法是用训练好的π去寻找。然而这并没有用MDP的转移模型（？）（下方这个公式）

所以利用上面训练好的模型π、Q去生成蒙特卡罗树，就像训练时那样（Q stop作为上文提到的V进行更新）。但是可能有多路径到达同一个终止节点n。走不同路径，就有不同的叶子节点是n。

怎么比较选择哪个终点n（而且n需要综合多条路径），需要算一个分数，排序。

N是蒙特卡罗树的总模拟数量

综合叶子节点是n的情况，求n的分数。

在所有的候选节点中，我们选择score最大的。

3.4 RNN encoder

qt约等于右边的式子

所以st大约可以写成

st由两部分组成 1） $\varepsilon _{n_{t}}$ $N_{n_{t}}$ 代表候选动作（包括STOP） 2）qt代表历史

所以用两个不同的神经网络去编码他们

前面说过，ht分为三个部分：

1）将上个时间的状态、动作、当前节点，综合。

2）综合了nt的邻居n'节点，以及nt和n'之间的边e，代表第n'个候选动作（包括STOP动作）

3）综合了 $\varepsilon _{n_{t}}$ 和 $N_{n_{t}}$ ，用来判断STOP的概率。

求 2）的方法很简单，就是边和点的表达通过full-connected neural network

求 3）的方法，就是max 2）的结果，因为每一次的节点数可能都不一样，这样可以得到统一的结果

求1）就是编码qt 使用gru的思想

可以看出，q就相当于rnn里的hidden，初始是query q，之后为qt，rnn的输入是 $[h_{A,t},h_{a_{t},t},n_{t+1}]$

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】M-Walk: Learning to Walk over Graphs using Monte Carlo Tree Search

本文用了强化学习，在知识图谱上游走，寻找目标节点。一、简介大概意思就是，在知识图谱上，给出一个起始节点和查询（query），然后找到目标节点。图G包含节点和边。如下图，给出起始节点Obama，query：citizenship，目标节点是USA。我们要学习一个方法来预测。我们我们将f作为强化学习力的agent。他要学习搜索策略（search policy）训练的时候，我们给出，让f自己学习路径，如果他走到，就给他一个正的reward，或者0分。学完后只给出，预测...
复制链接

扫一扫

专栏目录

*晴儿* CSDN认证博客专家 CSDN认证企业博客

码龄8年

105: 原创

7万+: 周排名

212万+: 总排名

4万+: 访问

: 等级

1363: 积分

109: 粉丝

32: 获赞

10: 评论

64: 收藏

私信

关注

热门文章

分类专栏

最新评论

【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
我亲爱的老婆: 我想请问一个问题就是离线训练怎么训练啊？有没有相关的项目代码推荐呀
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 论文里这样写的，当我们使用用户的浏览历史数据来训练提出的actor-critic框架时，数据中很少给出用户的浏览数据、新的推荐页面以及用户相应的反馈（奖励）。因此，生成的原动作和有效动作之间存在差距，即无论actor输出的原动作是什么，有效动作都是固定的。这将断开actor和critic的联系。从现有的工作中，我们知道生成的动作和有效动作应该是相似的，这是将actor和critic连接起来进行训练的前提。
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 我也不知道那个断开连接是啥意思，论文里这样写的，我看到断开连接这里我就蒙了
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
*晴儿*: 首先，我们生成的物品的表达肯定和物品的真实表达肯定是不一样的（一个向量，一串数字，怎么可能完全一样，所以选择生成的向量最像哪个物品向量，作为强化学习选择的结果）。所以肯定越像真实值奖励越高，越不像真实值奖励越小。我不知道断开连接是啥意思，是指不能bp吗？reward可以自己任意设置，不需要可导，对bp无影响。
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 离线训练那里我不懂，为什么生成的a中的e可能不在物品嵌入空间中，这样就使actor和critic断开连接了呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。