目标函数
对于一个带有参数的策略,找到最优的
定义
- start value:
- average value:
- average reward per time-step:
目标函数的优化
1、有限差分策略梯度
策略梯度
- 策略梯度算法可以使目标函数沿着梯度上升至局部最大值:
- 策略梯度:
- 有限差分计算策略梯度:,为单位向量
2、蒙特卡罗策略梯度
- score function:
- softmax策略:所有可能执行动作的概率
- 高斯策略:
- 均值:参数化表示,例如用线性组合
- 方差:固定值或者参数化
- action对应一个具体数值:
- score function(高斯函数求导):
3、策略梯度定理
任何可微策略,
任何策略目标函数
策略梯度:
4、蒙特卡罗策略梯度
算法过程
- 利用随机梯度下降法更新参数
- 利用策略梯度定理
function REINFORCE
Initialise arbitrarily
for each episode do
for t=1 to T-1 do
end for
end for
return
end function
5、Actor-Critic策略梯度