强化学习蘑菇书学习笔记03

第四章 策略梯度

关键词

  • policy(策略): 每一个actor中会有对应的策略,这个策略决定了actor的行为。具体来说,Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。一般地,我们将policy写成 π π π
  • Return(回报): 一个回合(Episode)或者试验(Trial)所得到的所有的reward的总和,也被人们称为Total reward。一般地,我们用 R R R来表示它。
  • Trajectory: 一个试验中我们将environment 输出的 ss 跟 actor 输出的行为 aa,把这个 ss 跟 aa 全部串起来形成的集合,我们称为Trajectory,即
    T r a j e c t o r y τ = { s 1 , a 1 , s 2 , a 2 , ⋯   , s t , a t } ∘ Trajectory\enspace \tau =\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}_{\circ} Trajectoryτ={s1,a1,s2,a2,,st,at}
  • Reward function : 根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数,它是一个 function。也就是给一个 s 1 s_{1} s1, a 1 a_{1} a1,它告诉你得到 r 1 r_{1} r1。给它 s 2 s_{2} s2, a 2 a_{2} a2,它告诉你得到 r 2 r_{2} r2。把所有的 r r r 都加起来,我们就得到了 R ( τ ) R(\tau) R(τ),代表某一个 trajectory τ \tau τ 的 reward。
  • Expected reward : R ˉ θ = ∑ τ R ( τ ) p θ ( τ ) = E τ ∼ p θ ( τ ) [ R ( τ ) ] 。  \bar{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]_{\text {。 }} Rˉθ=τR(τ)pθ(τ)=Eτpθ(τ)[R(τ)] 
  • REINFORCE: 基于策略梯度的强化学习的经典算法,其采用回合更新的模式。

第五章 近端策略优化算法

关键词

  • on-policy(同策略) : 要learn的agent和环境互动的agent是同一个时,对应的policy。
  • off-policy(异策略) : 要learn的agent和环境互动的agent不是同一个时,对应的policy。
  • important sampling(重要性采样): 使用另外一种数据分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡罗方法结合使用,公式如下:
    ∫ f ( x ) p ( x ) d x = ∫ f ( x ) p ( x ) q ( x ) q ( x ) d x = E x ∼ q [ f ( x ) p ( x ) q ( x ) ] = E x ∼ p [ f ( x ) ] \int f(x) p(x) d x=\int f(x) \frac{p(x)}{q(x)} q(x) d x=E_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]=E_{x \sim p}[f(x)] f(x)p(x)dx=f(x)q(x)p(x)q(x)dx=Exq[f(x)q(x)p(x)]=Exp[f(x)]
    我们在已知 q q q 的分布后,可以使用上述公式计算出从 p p p 这个distribution sample x 代入 f f f 以后所算出来的期望值。
  • Proximal Policy Optimization (PPO) : 避免在使用important sampling时由于在 θ \theta θ 下的 p θ ( a t ∣ s t ) p_{\theta}\left(a_{t} \mid s_{t}\right) pθ(atst) 跟 在 θ ′ \theta^{\prime} θ 下的 p θ ′ ( a t ∣ s t ) p_{\theta^{\prime}}\left(a_{t} \mid s_{t}\right) pθ(atst)差太多,导致important sampling结果偏差较大而采取的算法。具体来说就是在training的过程中增加一个constrain,这个constrain对应着 θ \theta θ θ ′ \theta^{\prime} θ output 的 action 的 KL divergence,来衡量 θ \theta θ θ ′ \theta^{\prime} θ 的相似程度。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值