critic法计算_对于强化学习算法中的AC算法（Actor-Critic算法）的一些理解

最新推荐文章于 2025-03-13 18:46:51 发布

流失的美condor

最新推荐文章于 2025-03-13 18:46:51 发布

阅读量802

点赞数

文章标签： critic法计算

本文链接：https://blog.csdn.net/weixin_34377037/article/details/111964302

版权

本文探讨了Actor-Critic算法在强化学习中的应用，源于解决credit assignment问题。重点在于理解《Policy Gradient Methods for Reinforcement Learning with Function Approximation》论文中的定理2，阐述了公式(3)和(4)的重要性，它们确保了函数f(s,a)能有效估计Q(s,a)，并可能替代Q(s,a)进行策略梯度计算。虽然在实际应用中很难完全满足这些条件，但现代深度学习方法已能在一定程度上实现这些理论假设。" 130395153,9240097,海康威视监控设备技术要点详解,"['网络', '计算机网络', '服务器', '运维']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AC算法(Actor-Critic算法)最早是由《Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems Neuronlike Adaptive Elements That Can Solve Difficult Learning Control Problems》论文提出，不过该论文是出于credit assignment problem设计了actor部分和critic部分，其中critic对actor获得的reward进行credit assignment 处理和学习，然后把处理后获得的新reward传递给actor进行学习，这样结合了critic和actor两部分学习器，得到了一个更优的学习器。

可以看到最初的AC算法只是为了更好解决credit assignment问题，将Actor和Critic两者结合，其中的Critic主要就是为每一步的actor学习给出一个更好的credit assignment的reward。最初的AC算法中critic更多的是在辅助actor来进行学习的，可以看到现在的AC算法除了保留了将两个学习器结合的思想以外已经与最初的AC算法差距较大了，而现在的AC算法形式为论文《Policy Gradient Methods for Reinforcement Learning with Function Approximation》给出的。

因此，本文主要讨论的是对论文《Policy Gradient Methods for Reinforcement Learning with Function Approximation》的一些理解。前几天写过一个该论文的一些基本形式和证明(

)ÿ