强化学习DRL--策略学习（Actor-Critic）

最新推荐文章于 2024-06-27 00:37:15 发布

还有你Y

最新推荐文章于 2024-06-27 00:37:15 发布

阅读量551

点赞数

分类专栏：机器学习、深度学习、强化学习文章标签：学习深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45889056/article/details/129695893

版权

机器学习、深度学习、强化学习专栏收录该内容

24 篇文章 9 订阅

订阅专栏

策略学习的意思是通过求解一个优化问题，学出最优策略函数 $\pi(a|s)$ 或它的近似函数（比如策略网络）。

一、策略网络

在这里插入图片描述
在 Atari 游戏、围棋等应用中，状态是张量（比如图片），那么应该如图 7.1 所示用卷积网络处理输入。在机器人控制等应用中，状态 s 是向量，它的元素是多个传感器的数值，那么应该把卷积网络换成全连接网络。

二、策略学习的目标函数

状态价值既依赖于当前状态 s t ，也依赖于策略网络 π 的参数 θ。
策略学习的目标函数

三、策略梯度定理

四、Actor-Critic

在这里插入图片描述

1.价值网络

Actor-critic 方法用一个神经网络近似动作价值函数 $Q _π (s,a)$ ，这个神经网络叫做“价值网络”，记为 $q(s,a;\bf{w})$
在这里插入图片描述
注：区别DQN网络的区别：

2.Actor-critic

策略网络 $π (a ∣ s; θ)$ 相当于演员，它基于状态 s做出动作 a。价值网络 $q (s, a; w)$ 相当于评委，它给演员的表现打分，评价在状态 s 的情况下做出动作 a 的好坏程度。
在这里插入图片描述
注：

训练策略网络（演员）需要的是回报 U，而不是奖励 R。价值网络（评委）能够估算出回报 U 的期望，因此能帮助训练策略网络（演员）。

（1）训练策略网络（演员）

然后做算法的更新：
在这里插入图片描述

（2）训练价值网络

用 SARSA算法更新 $w$ ，提高评委的水平。每次从环境中观测到一个奖励 $r$ ，把 $r$ 看做是真相，用 $r$ 来校准评委的打分。
在这里插入图片描述
----------------------------------------------------------整体的训练步骤：----------------------------------------------------------

五、带基线的策略梯度方法

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。