一、策略梯度算法
1.1 算法
用pθ(τ)表示一个策略,其中θ是参数。我们希望找到最佳的τ,使得回报的期望最大。
梯度不能求,但是我们可以将它转换一下写成期望的形式
此时就可以用MC来估计这个期望
算法:
1.2 与分类任务的关系
分类任务通常最小化交叉熵损失/最大化对数似然(等价)
这里如果这么理解的话,这是一种最大化对数似然。我们把每次采样到的(s,a)对当做真实标签,那么这个对数似然就是:
图片6
但策略梯度并不是希望“越被采样到的动作,越频繁的发生”,而是希望“采样到的动作中,回报越高越频繁发生,回报越低越少发生”。所以要增加一个权重,这个权重就是采取该动作的回报,或者后文所讲的优势函数。
图片7