李宏毅强化学习笔记【3.Actor-Critic】

最新推荐文章于 2024-03-10 16:08:13 发布

*晴儿*

最新推荐文章于 2024-03-10 16:08:13 发布

阅读量372

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34919415/article/details/104084375

版权

强化学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

复习策略梯度policy gradient

计算在某一个state，采取action a的概率。到游戏结束为止，获得多少reward。

G很不稳定。除非sample很多。

复习Q-learning

用期望代替sample，value-based

第一种方法算V，用π和环境做互动，看到s之后，累计reward期望值是多少。

第二种方法，用π，当再s采取a，累计reward是多少。

TD比较稳，MC比较精确。

Actor-Critic

算G的期望，即是Q，即在s采取a的累计reward期望值。

V与action无关，Q与action有关。

这样要预测两个网络Q和V。

所以用r+V代替Q。

因为s采取a变成的st+1是什么不确定，所以用期望。但是比较麻烦，去掉期望。r是一个变量，但是比G的方差比较小。

π和环境互动，学习Value function。套用下面的式子学到新的π。

Tip：

1.π和V的参数可以被分享。

2.不同的action采取的几率平均一点，这样可以尝试探索。

比如把网络设计成这样。让前面几层公用同一个参数。

A3C 为了加快训练

开很多worker，每个worker和环境做互动。

复制全局参数，sample一些data，计算梯度，更新全局模型。

所有的actor是平行的，互不相关。就是复制参数跑。有可能等跑完了全局参数已经变了，但是没关系。

Pathwise Derivative Policy Gradient

输入s，输出a，让Q越大越好。固定Q参数，只调整Actor的参数

就是一个gan。Q就是辨别器，A是生成器。

用π生成a。有一个target π，平常是固定的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

*晴儿* CSDN认证博客专家 CSDN认证企业博客

码龄8年

105: 原创

6万+: 周排名

86万+: 总排名

4万+: 访问

: 等级

1368: 积分

114: 粉丝

32: 获赞

10: 评论

64: 收藏

私信

关注

热门文章

分类专栏

最新评论

【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
我亲爱的老婆: 我想请问一个问题就是离线训练怎么训练啊？有没有相关的项目代码推荐呀
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 论文里这样写的，当我们使用用户的浏览历史数据来训练提出的actor-critic框架时，数据中很少给出用户的浏览数据、新的推荐页面以及用户相应的反馈（奖励）。因此，生成的原动作和有效动作之间存在差距，即无论actor输出的原动作是什么，有效动作都是固定的。这将断开actor和critic的联系。从现有的工作中，我们知道生成的动作和有效动作应该是相似的，这是将actor和critic连接起来进行训练的前提。
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 我也不知道那个断开连接是啥意思，论文里这样写的，我看到断开连接这里我就蒙了
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
*晴儿*: 首先，我们生成的物品的表达肯定和物品的真实表达肯定是不一样的（一个向量，一串数字，怎么可能完全一样，所以选择生成的向量最像哪个物品向量，作为强化学习选择的结果）。所以肯定越像真实值奖励越高，越不像真实值奖励越小。我不知道断开连接是啥意思，是指不能bp吗？reward可以自己任意设置，不需要可导，对bp无影响。
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 离线训练那里我不懂，为什么生成的a中的e可能不在物品嵌入空间中，这样就使actor和critic断开连接了呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。