第四章 策略梯度
关键词
- policy(策略): 每一个actor中会有对应的策略,这个策略决定了actor的行为。具体来说,Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。一般地,我们将policy写成 π π π 。
- Return(回报): 一个回合(Episode)或者试验(Trial)所得到的所有的reward的总和,也被人们称为Total reward。一般地,我们用 R R R来表示它。
- Trajectory: 一个试验中我们将environment 输出的 ss 跟 actor 输出的行为 aa,把这个 ss 跟 aa 全部串起来形成的集合,我们称为Trajectory,即
T r a j e c t o r y τ = { s 1 , a 1 , s 2 , a 2 , ⋯ , s t , a t } ∘ Trajectory\enspace \tau =\left\{s_{1}, a_{1}, s_{2}, a_{2}, \cdots, s_{t}, a_{t}\right\}_{\circ} Trajectoryτ={s1,a1,s2,a2,⋯,st,at}∘ - Reward function : 根据在某一个 state 采取的某一个 action 决定说现在这个行为可以得到多少的分数,它是一个 function。也就是给一个 s 1 s_{1} s1, a 1 a_{1} a1,它告诉你得到 r 1 r_{1} r1。给它 s 2 s_{2} s2, a 2 a_{2} a2,它告诉你得到 r 2 r_{2} r2。把所有的 r r r 都加起来,我们就得到了 R ( τ ) R(\tau) R(τ),代表某一个 trajectory τ \tau τ 的 reward。
- Expected reward : R ˉ θ = ∑ τ R ( τ ) p θ ( τ ) = E τ ∼ p θ ( τ ) [ R ( τ ) ] 。 \bar{R}_{\theta}=\sum_{\tau} R(\tau) p_{\theta}(\tau)=E_{\tau \sim p_{\theta}(\tau)}[R(\tau)]_{\text {。 }} Rˉθ=∑τR(τ)pθ(τ)=Eτ∼pθ(τ)[R(τ)]。
- REINFORCE: 基于策略梯度的强化学习的经典算法,其采用回合更新的模式。
第五章 近端策略优化算法
关键词
- on-policy(同策略) : 要learn的agent和环境互动的agent是同一个时,对应的policy。
- off-policy(异策略) : 要learn的agent和环境互动的agent不是同一个时,对应的policy。
- important sampling(重要性采样): 使用另外一种数据分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡罗方法结合使用,公式如下:
∫ f ( x ) p ( x ) d x = ∫ f ( x ) p ( x ) q ( x ) q ( x ) d x = E x ∼ q [ f ( x ) p ( x ) q ( x ) ] = E x ∼ p [ f ( x ) ] \int f(x) p(x) d x=\int f(x) \frac{p(x)}{q(x)} q(x) d x=E_{x \sim q}\left[f(x) \frac{p(x)}{q(x)}\right]=E_{x \sim p}[f(x)] ∫f(x)p(x)dx=∫f(x)q(x)p(x)q(x)dx=Ex∼q[f(x)q(x)p(x)]=Ex∼p[f(x)]
我们在已知 q q q 的分布后,可以使用上述公式计算出从 p p p 这个distribution sample x 代入 f f f 以后所算出来的期望值。 - Proximal Policy Optimization (PPO) : 避免在使用important sampling时由于在 θ \theta θ 下的 p θ ( a t ∣ s t ) p_{\theta}\left(a_{t} \mid s_{t}\right) pθ(at∣st) 跟 在 θ ′ \theta^{\prime} θ′ 下的 p θ ′ ( a t ∣ s t ) p_{\theta^{\prime}}\left(a_{t} \mid s_{t}\right) pθ′(at∣st)差太多,导致important sampling结果偏差较大而采取的算法。具体来说就是在training的过程中增加一个constrain,这个constrain对应着 θ \theta θ 跟 θ ′ \theta^{\prime} θ′ output 的 action 的 KL divergence,来衡量 θ \theta θ 跟 θ ′ \theta^{\prime} θ′ 的相似程度。