李宏毅强化学习笔记【1.PPO】

最新推荐文章于 2024-05-22 18:04:37 发布

*晴儿*

最新推荐文章于 2024-05-22 18:04:37 发布

阅读量304

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34919415/article/details/103995577

版权

强化学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

策略梯度Policy Gradient

policy决定actor的行为，给定一个输入，输出行为

公式和之前讲的一样

R是一个τ的总分！！！！！！！！！！！不是单个s，a的reward

tip1：add baseline 之前说过

tip2：这个action之前的reward与这个action无关，所以只计算该action和action之后的reward。还可以加入一个衰减因子γ（<1），离该动作时间越长的，影响越小。

on policy：学习的agent和环境互动来学习

off policy：学习的agent和环境与互动的agent不是同一个，这个agent看别人玩来学习。

$\Theta$ 变了，p $\Theta$ (τ)就变了，就要sample新的τ，所以花很多时间在sample

sample一次τ，训练 $\Theta$ 很多次，就会节约时间。

把从p sample变成从q，q为任意分布，根据公式，变换后还能得到所需要的。从q sample τ，p在变，τ可以一直保持不变，继续训练。

q的几率为0，p不为0的时候没有定义。

p和q不能差太多。因为虽然他们的期望是一样的，但是方差是不一样的。除非sample足够多。

$\Theta$ '用来sample，训练 $\Theta$

如何做梯度更新

PPO用的比较多，差距是行为上的距离，不是参数的距离。（那个KL让我很迷幻……）

PPO算法：

初始化一个 $\Theta$ 0，

在每个迭代：

用 $\Theta$ k去sample，st，at。用他们来更新 $\Theta$ ，可以用很多次。

PPO2

结果是红色的线

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
李宏毅强化学习笔记【1.PPO】

策略梯度Policy Gradientpolicy决定actor的行为，给定一个输入，输出行为公式和之前讲的一样R是一个τ的总分！！！！！！！！！！！不是单个s，a的rewardtip1：add baseline 之前说过tip2：这个action之前的reward与这个action无关，所以只计算该action和action之后的reward。...
复制链接

扫一扫

专栏目录

*晴儿* CSDN认证博客专家 CSDN认证企业博客

码龄8年

105: 原创

7万+: 周排名

56万+: 总排名

4万+: 访问

: 等级

1363: 积分

109: 粉丝

32: 获赞

10: 评论

64: 收藏

私信

关注

热门文章

分类专栏

最新评论

【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
我亲爱的老婆: 我想请问一个问题就是离线训练怎么训练啊？有没有相关的项目代码推荐呀
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 论文里这样写的，当我们使用用户的浏览历史数据来训练提出的actor-critic框架时，数据中很少给出用户的浏览数据、新的推荐页面以及用户相应的反馈（奖励）。因此，生成的原动作和有效动作之间存在差距，即无论actor输出的原动作是什么，有效动作都是固定的。这将断开actor和critic的联系。从现有的工作中，我们知道生成的动作和有效动作应该是相似的，这是将actor和critic连接起来进行训练的前提。
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 我也不知道那个断开连接是啥意思，论文里这样写的，我看到断开连接这里我就蒙了
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
*晴儿*: 首先，我们生成的物品的表达肯定和物品的真实表达肯定是不一样的（一个向量，一串数字，怎么可能完全一样，所以选择生成的向量最像哪个物品向量，作为强化学习选择的结果）。所以肯定越像真实值奖励越高，越不像真实值奖励越小。我不知道断开连接是啥意思，是指不能bp吗？reward可以自己任意设置，不需要可导，对bp无影响。
【论文笔记】Deep Reinforcement Learning for Page-wise Recommendations
花翎HL: 离线训练那里我不懂，为什么生成的a中的e可能不在物品嵌入空间中，这样就使actor和critic断开连接了呢

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。