深度强化学习（4）： Actor-Critic 方法篇

Sudaa__

已于 2022-03-20 16:45:40 修改

阅读量902

点赞数 1

分类专栏：科研文章标签：深度学习神经网络机器学习

于 2022-03-16 20:57:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44755885/article/details/123535996

版权

科研专栏收录该内容

7 篇文章 5 订阅

订阅专栏

王树森老师《深度强化学习基础》学习笔记

四、Actor-Critic Methods

Value Network and Policy Network

用策略网络 $\pi$ 来近似策略函数 $\pi$ （相当于运动员），用价值网络 $q$ 来近似动作价值函数 $Q$ （相当于裁判）。
同时训练策略网络和价值网络就被称为 Actor-Critic Methods。
State-Value Function Approximation：

Train the Neural Networks

Train the networks
- 更新策略网络 $\theta$ 的值是为了让 $V$ 的值增加，其更新受 $q$ 监督。
- 更新价值网络 $q$ 的值是为了让 $q$ 的打分更加精准。
- 网络的训练（参数 $\theta$ 和参数 $q$ 的更新）：
用 TD 算法更新价值网络 $q$ ：
用策略梯度（policy gradient）更新策略网络 $\pi$ （详见上节）:

Actor-Critic Method

流程：
算法：
- 注意 $\widetilde{a}_{t+1}$ 并不是真的执行的动作，而是根据状态 $s_{t+1}$ 随机抽样得到的，用完后就丢弃掉了。
- 每一轮迭代都做这 9 个步骤，只做一次动作，观测一个奖励，更新一次神经网络参数。
- 使用 2 为标准算法，使用 1 为 Policy Gradient with Baseline（效果更好，原因：可以降低方差让算法收敛的更快）。

总结：

Policy Network and Value Network：
Roles of Actor and Critic：
Training：

参考与感谢：

王树森老师《强化学习基础》课程：https://www.youtube.com/playlist?list=PLvOO0btloRnsiqM72G4Uid0UWljikENlU
王树森老师GitHub主页：https://github.com/wangshusen?tab=stars
课件：https://github.com/wangshusen/DeepLearning
讲义：https://github.com/wangshusen/DRL/blob/master/Notes_CN/

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
深度强化学习（4）： Actor-Critic 方法篇

深度强化学习_王树森（4. Actor-Critic 方法篇）学习笔记。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。