【笔记2-4】李宏毅深度强化学习笔记（四）Actor-Critic

最新推荐文章于 2024-05-22 18:04:37 发布

jessie_weiqing

最新推荐文章于 2024-05-22 18:04:37 发布

阅读量8.1k

点赞数 15

分类专栏：笔记李宏毅深度强化学习笔记文章标签：强化学习李宏毅 reinforcement learning actor-critic A3C

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cindy_1102/article/details/87988606

版权

本文回顾了Policy Gradient和Q-Learning，详细介绍了Actor-Critic算法，包括Advantage Actor-Critic（A2C）和Asynchronous Advantage Actor-Critic（A3C）。A3C通过多工人并行训练提高效率，Pathwise Derivative Policy Gradient让Critic指导Actor选择最优行动。

摘要由CSDN通过智能技术生成

李宏毅深度强化学习- Actor-Critic

Asynchronous Advantage Actor-Critic (A3C)
Pathwise Derivative Policy Gradient

李宏毅深度强化学习课程 https://www.bilibili.com/video/av24724071

李宏毅深度强化学习笔记（一）Outline
李宏毅深度强化学习笔记（二）Proximal Policy Optimization (PPO)
李宏毅深度强化学习笔记（三）Q-Learning
李宏毅深度强化学习笔记（五）Sparse Reward
李宏毅深度强化学习笔记（六）Imitation Learning
李宏毅深度强化学习课件

Asynchronous Advantage Actor-Critic (A3C)

回顾 – Policy Gradient

先对policy gradient进行回顾，只需要记得几个要点：

给定某个state采取某个action的概率
考虑到行动输出的概率和为一，为了保证reward越大的有更大的概率被sample到，需要加上baseline b
考虑到当先action对过去的reward没有影响，从当前时间点开始进行reward的累加
考虑到时间越久，当前action对后期reward的影响越小，添加折扣系数 $\gamma$

由于无法sample到如此多的G，因此我们引入了Q-learning
在这里插入图片描述

回顾 – Q-Learning

Q-learning部分主要记住以下几个点：
状态价值函数 $V^\pi(s)$ （state value function，表示当使用某个actor时，观察到state之后预计会得到的累积reward）

状态行动价值函数 $Q^\pi(s, a)$ （state-action value function，当使用某个actor与环境互动时，在某个state采取某个action预计会得到的累积reward）

最低0.47元/天解锁文章

关注

15
点赞
踩
41

收藏

觉得还不错? 一键收藏
2
评论
【笔记2-4】李宏毅深度强化学习笔记（四）Actor-Critic

李宏毅深度强化学习- Actor-CriticAsynchronous Advantage Actor-Critic (A3C)Review – Policy GradientReview – Q-LearningActor-CriticPathwise Derivative Policy Gradient李宏毅深度强化学习课程 https://www.bilibili.com/video/a...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。