目录
一、算法描述
1.1 广义梯度公式
根据上一章PG算法可以得知对于策略梯度下降的方法我们关注的是:
因此从广义的策略理论上,策略梯度可以写成:
可以表示为一下几种
1、,轨迹的总回报。
2、,动作后的总汇报(从该动作往后算,可以看成前期的对后面没有影响)
3、,加入基线的累计回报
4、,状态-值函数
5、,优势函数
6、,TD误差
将广义的策略梯度分开来看,是一个评价器(critic),评估策略的好坏(策略为actor),在PG中使用的是一条轨迹的累计回报来评价策略的好坏,但这种评价比较粗糙,不够精确。以TD误差为例,构建critic和actor。
1.2 AC算法框架
将状态进行参数化,评价器采用 ,可以理解使用来评价策略的好坏【注意在一般的框架中并不就是指TD的误差】
AC通用框架的伪代码如下:
输入:参数化策略和参数化的状态
初始化:随机初始化两个参数()[两个网络]
循环:
利用当前策略采样数据()
利用数据计算行为值函数,并进行单步更新。【其中的行为值函数即为,其目的为计算评估器】