目录
第一部分:原理
一、基础
将策略写成函数,θ是策略的参数,ω是价值的参数。
好处:
表格和函数策略的区别
- 如何定义最优策略?
2.如何访问动作的概率?
3.如何更新策略?
核心
第一步:定义目标函数
第二步:梯度优化寻找最优策略
问题:
目标函数怎么确定?
如何计算梯度?
二、定义目标函数
第一种定义:average state value
d该如何处理分为两种情况
和策略Π无关
和策略Π有关
vΠ的另一种定义:
第二种定义:average one-step reward
三、求梯度
由于输出策略每一个都是大于0,那么策略一定是随机的、探索性的。
四、REINFORCE
真实梯度可以用一个随机的代替。
然而,qΠ我们也不知道,用近似
1.怎么采样?
2.怎么理解