Reference
[1] Hung-yi Lee: https://youtu.be/OAKAZhFmYoI
1. Policy Gradient
一种policy-based方法,由策略网络直接输出动作。
1.1 Actor, Enviroment, Reward
(1)Actor
Actor指策略网络 π θ \pi_\theta πθ,输入状态s输出动作。
(2)Interaction Process
演员与环境的交互过程:将环境状态 s i s_i si输入到actor,策略网络输出动作 a i a_i ai。将动作 a i a_i ai输入到环境中可以获得奖励和下一状态 R i + 1 , s i + 1 R_{i+1},s_{i+1} Ri+1,si+1。一条完整的轨迹 τ \tau τ由有限个状态动作对组成。
-
轨迹概率 p θ ( τ ) p_\theta(\tau) pθ(τ