深度强化学习（policy gradient） task03-1

最新推荐文章于 2023-11-24 10:39:55 发布

lukem44

最新推荐文章于 2023-11-24 10:39:55 发布

阅读量186

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lukem44/article/details/109298039

版权

上次提到了在深度强化中的几个概念，现在来看一看他们的关系：
环境——>状态1——>行为1——>环境——>状态2——>行为2等等

以一个游戏的强化学习过程为例：
在这里插入图片描述

在这里插入图片描述
所有状态和行为组成的序列被称为trajectory（轨迹）
某种轨迹出现的概率为

奖励R：

下面要求R的梯度

policy gradient：
迭代公式为

在这里插入图片描述
具体的步骤是

计算时，需要最小化

因此，在tf或torch中，求上式的梯度并乘以权重（R），并加到这个式子里不断迭代（牛顿法）
tip1: 为了不让R全都为正（避免有的情况没能采样到而使其权重变很低），会在R的基础上减掉一个值
在这里插入图片描述
以便让权重有正有负。这里一般取多个序列得出的R的平均值（近似于其期望）作为b

**tip2:**assign suitable credit:一个序列的得分R高的时候并不意味着里面所有的action都是好的，而上面的计算则是序列的所有action都乘相同的weight，在sample次数不够多的情况下容易对action产生无解，为了区分一个序列中不同action的好坏，让他们分别与不同的权重相乘。
在这里插入图片描述
上面替换原来R的意思是认为某一个action之后所有得分都应该与这个action有关的，所以对那些分数加权求和，离这个action越近的分数权重越大

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习（policy gradient） task03-1

上次提到了在深度强化中的几个概念，现在来看一看他们的关系：环境——>状态1——>行为1——>环境——>状态2——>行为2等等以一个游戏的强化学习过程为例：所有状态和行为组成的序列被称为trajectory（轨迹）某种轨迹出现的概率为奖励R：下面要求R的梯度policy gradient：迭代公式为具体的步骤是计算时，需要最小化因此，在tf或torch中，求上式的梯度并乘以权重（R），并加到这个式子里不断迭代（牛顿法）tip1: 为了不
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。