目录
一、算法描述
1.1 广义梯度公式
根据上一章PG算法可以得知对于策略梯度下降的方法我们关注的是:
![]()
因此从广义的策略理论上,策略梯度可以写成:
![]()
可以表示为一下几种
1、
,轨迹的总回报。
2、
,动作后的总汇报(从该动作往后算,可以看成前期的对后面没有影响)
3、
,加入基线的累计回报
4、
,状态-值函数
5、
,优势函数
6、
,TD误差
将广义的策略梯度分开来看,
是一个评价器(critic),评估策略
的好坏(策略为actor),在PG中使用的是一条轨迹的累计回报来评价策略的好坏,但这种评价比较粗糙,不够精确。以TD误差为例,构建critic和actor。
1.2 AC算法框架
将状态
进行参数化
,评价器采用
,可以理解使用
来评价策略的好坏【注意在一般的框架中
并不就是指TD的误差】
AC通用框架的伪代码如下:
输入:参数化策略
和参数化的状态
初始化:随机初始化两个参数(
)[两个网络]
循环:
利用当前策略
采样数据(
)
利用数据计算行为值函数,并进行单步更新。【其中的行为值函数即为
,其目的为计算评估器】

本文详细介绍了强化学习中的Actor-Critic(AC)算法,包括广义梯度公式、AC算法框架、网络误差计算及原理图。AC算法结合了策略网络(actor)和评价网络(critic),通过TD误差来评估策略效果。文章讨论了AC算法的蒙特卡洛和TD方法,并分析了网络训练中的问题,如回报函数的收敛性和训练效率。
和参数化的状态
)[两个网络]
)
,其目的为计算评估器】
最低0.47元/天 解锁文章
156

被折叠的 条评论
为什么被折叠?



