A3C=value based+actor based

最新推荐文章于 2022-07-02 21:00:42 发布

chen5561

最新推荐文章于 2022-07-02 21:00:42 发布

阅读量223

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duyue3052/article/details/82701924

版权

本文深入探讨A3C（Asynchronous Advantage Actor-Critic）算法，重点复习actor based部分，并介绍如何通过value based方法解决稳定性问题。文章讨论了在不同状态下采取行动的概率及其对总奖励（G）的影响，指出状态转移的不确定性带来的挑战，以及Q-learning作为解决方案的价值函数。通过Q函数网络输出的行为得分期望，更新actor策略，并介绍了参数共享和影分身训练等实际应用技巧。

摘要由CSDN通过智能技术生成

A3C文献

actor based复习

从右往左理解公式：在互动获取数据之后，在某个状态s采取行为a的概率，括号中是权重（越往后影响越低，有正有负），玩到底将所有的加起来得到G。计算梯度，更新actor的参数

问题在于，某个状态s经过a之后的状态是一个分布，除非采样很多，不然极不稳定，而每个s的每个action的采样不可能很多

能不能估计期望值？所以有了value base的方法：Qlearning

之前是累计所有游戏中的某个state之中执行某个action a之后的轨迹得到G，进而更新 actor

现在将某个state之后所有可能的action的期望的G，形成一个critic

G的期望就是Q函数的网络输出，网络输出每个行为的得分期望（TD比较稳，MC比较精确）；之前是用得分期望更新网络参数，输出行为的概率，

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
A3C=value based+actor based

A3C文献actor based复习从右往左理解公式：在互动获取数据之后，在某个状态s采取行为a的概率，括号中是权重（越往后影响越低，有正有负），玩到底将所有的加起来得到G。计算梯度，更新actor的参数问题在于，某个状态s经过a之后的状态是一个分布，除非采样很多，不然极不稳定，而每个s的每个action的采样不可能很多能不能估计期望值？所以有了value base的方法：Q...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。