深度强化学习算法ACTOR-CRITIC

温州草履虫

已于 2022-03-18 23:02:19 修改

阅读量1k

点赞数

文章标签：算法机器学习深度学习

于 2022-03-18 17:51:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014136435/article/details/123571591

版权

深度强化学习算法ACTOR-CRITIC

复习一下经典的Policy-Gradient：
在这里插入图片描述

先让agent和环境互动一下，最后一项某时刻t，做出动作at，可以计算出这个状态st，再看出奖励r多大。把这些奖励从t到T加起来。r前面的系数γ可以抛弃一些时间轴上久远的值，可以设0.9到1之间。b是基线，这项的目的是括号中的值有正有负。如果正数，要增加在这个状态采取这个动作的几率。这就是策略梯度（Policy-Gradient）。
具体的方法：

采样 n个序列，只有采样才能估计梯度的期望，采样多了就估计准了。
对每个策略计算梯度。
更新梯度。（离散动作空间使用softmax输出动作概率，连续动作空间中，一般假设每个动作的输出服从高斯分布，因此可以输出每个动作的均值。动作之间可以共用方差或各自分别学习方差。近期也有研究指出输出使用Beta分布比Gussian分布要好。）

因为互动本身是有随机性的，G的值是不确定的。实际上的做的是，对G进行随机采样，拿这些值去更新我们参数。
我们需要的目的就是直接估测这个G.就是设计一条新的网络去做G的期望值。Qπθ 是给当前状态每个动作打分。Baseline换成Vπθ(Stn)。也就是说一直到游戏结束。才知道你这个值多大。
为什么要加上期望值E呢？因为本身就具有随机性。去掉E则会让r具有随机性。但是比刚刚的G要好，因为r是某时刻。G确实所有r的总和。降低了随机性。
最后一个公式是对R求梯度，采用蒙特卡洛采样即可。
为了增加训练的速度。则可以开很多的工作。使用A3C.这玩意儿是让多个agent同时学习。
在网络设计方面，Actor和Critic可以使用不同的网络，这样学习稳定。也可以使用同一个网络，共享底层的特征。

温州草履虫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习算法ACTOR-CRITIC

深度强化学习算法ACTOR-CRITIC及tensroflow代码复现复习一下经典的Policy-Gradient：先让agent和环境互动一下，最后一项某时刻t，做出动作at，可以计算出这个状态st，再看出奖励r多大。把这些奖励从t到T加起来。r前面的系数γ可以抛弃一些时间轴上久远的值，可以设0.9到1之间。b是基线，这项的目的是括号中的值有正有负。如果正数，要增加在这个状态采取这个动作的几率。这就是策略梯度（Policy-Gradient）。具体的方法：采样 n个序列，只有采样才能估计梯度的
复制链接

扫一扫

温州草履虫 CSDN认证博客专家 CSDN认证企业博客

码龄10年

26: 原创

105万+: 周排名

50万+: 总排名

2万+: 访问

: 等级

298: 积分

12: 粉丝

25: 获赞

8: 评论

128: 收藏

私信

关注

热门文章

最新评论

actor-critic代码逐行解析（tensorflow版）
方千斐: 楼主您好，感谢您的分享，有个问题想请教您一下。在actor网络中的self.acts_prob[0, self.a]是什么意思呀？我理解的是self.acts_prob这个全连接层的输入不是l1吗？为什是action的相关量呀？这个0是batch_size吗？
关于python matplotlib绘制时频图
m0_72815367: 第一张图为什么长这样?我不太理解，两个正弦函数加一个随机数的散点图，不应该是这样长方形的样子啊？
actor-critic代码逐行解析（tensorflow版）
棒棒檀.: 增加维度，转为tensor才能运算
actor-critic代码逐行解析（tensorflow版）
棒棒檀.: 用的是np.random.choice（）的话可以设置概率，不过按照楼主写的这个样子，应该不会出现同一个动作

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。