【DataWhale打卡】百度的强化学习课程,通俗易懂,主要讲了Q-Learning,例子很多,生动形象。
1. Q-table概念
Q-table类似生活手册,在遇到一种特定的状态,会提供不同的动作,并且可以知道对应的价值。
Q
(
S
,
A
)
Q(S,A)
Q(S,A)
我们可以为每一个状态(state)上进行的每一个动作(action)计算出最大的未来奖励(reward)的期望。
2. SARSA
这个公式就是说可以拿下一步的 Q 值
Q
(
S
t
+
1
,
A
t
+
1
)
Q(S_{t+_1},A_{t+1})
Q(St+1,At+1) 来更新我这一步的 Q 值
Q
(
S
t
,
A
t
)
Q(S_t,A_t)
Q(St,At)
为了理解这个公式,如上图所示,我们先把 R t + 1 + γ Q ( S t + 1 , A t + 1 ) R_{t+1}+\gamma Q\left(S_{t+1}, A_{t+1}\right.) Rt+1+γQ(St+1,At+1) 当作是一个目标值,就是 Q ( S t , A t ) Q(S_t,A_t) Q(St,At)想要去逼近的一个目标值。我们想要计算的就是 Q ( S t , A t ) Q(S_t,A_t) Q(St,At) 。因为最开始 Q 值都是随机初始化或者是初始化为零,它需要不断地去逼近它理想中真实的 Q 值,我们就叫 target 。Target 就是带衰减的未来收益的总和。
我们用
G
t
G_t
Gt 来表示未来收益总和(return),并且对它做一下数学变化:
G
t
=
R
t
+
1
+
γ
R
t
+
2
+
γ
2
R
t
+
3
+
γ
3
R
t
+
4
+
⋯
=
R
t
+
1
+
γ
(
R
t
+
2
+
γ
R
t
+
3
+
γ
2
R
t
+
4
+
⋯
)
=
R
t
+
1
+
γ
G
t
+
1
\begin{aligned} G_{t} &=R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\gamma^{3} R_{t+4}+\cdots \\ &=R_{t+1}+\gamma\left(R_{t+2}+\gamma R_{t+3}+\gamma^{2} R_{t+4}+\cdots\right) \\ &=R_{t+1}+\gamma G_{t+1} \end{aligned}
Gt=Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+⋯=Rt+1+γ(Rt+2+γRt+3+γ2Rt+4+⋯)=Rt+1+γGt+1
就可以知道
G
t
=
R
t
+
1
+
γ
G
t
+
1
G_t = R_{t+1}+ \gamma G_{t+1}
Gt=Rt+1+γGt+1。
拿 Q ( S t , A t ) Q(S_t,A_t) Q(St,At) 来逼近 G t G_t Gt,那 Q ( S t + 1 , A t + 1 ) Q(S_{t+1},A_{t+1}) Q(St+1,At+1) 其实就是近似 G t + 1 G_{t+1} Gt+1。我就可以用 Q ( S t + 1 , A t + 1 ) Q(S_{t+1},A_{t+1}) Q(St+1,At+1) 近似 G t + 1 G_{t+1} Gt+1,然后把 R t + 1 + Q ( S t + 1 , A t + 1 ) R_{t+1}+Q(S_{t+1},A_{t+1}) Rt+1+Q(St+1,At+1)当成目标值。
该算法由于每次更新值函数需要知道当前的状态(state)、当前的动作(action)、奖励(reward)、下一步的状态(state)、下一步的动作(action),由此得名 Sarsa
算法。它走了一步之后,拿到了
(
S
t
,
A
t
,
R
t
+
1
,
S
t
+
1
,
A
t
+
1
)
(S_{t}, A_{t}, R_{t+1}, S_{t+1}, A_{t+1})
(St,At,Rt+1,St+1,At+1)之后,就可以做一次更新。
Sarsa 是一种 on-policy 策略。Sarsa 优化的是它实际执行的策略,它直接拿下一步会执行的 action 来去优化 Q 表格,所以 on-policy 在学习的过程中,只存在一种策略,它用一种策略去做 action 的选取,也用一种策略去做优化。所以 Sarsa 知道它下一步的动作有可能会跑到悬崖那边去,所以它就会在优化它自己的策略的时候,会尽可能的离悬崖远一点。这样子就会保证说,它下一步哪怕是有随机动作,它也还是在安全区域内。
3. Q-learning
off-policy 在学习的过程中,有两种不同的策略:
- 第一个策略是我们需要去学习的策略,即
target policy(目标策略)
,一般用 π 来表示,Target policy 就像是在后方指挥战术的一个军师,它可以根据自己的经验来学习最优的策略,不需要去和环境交互。 - 另外一个策略是探索环境的策略,即
behavior policy(行为策略)
,一般用 μ 来表示。μ 可以大胆地去探索到所有可能的轨迹,采集轨迹,采集数据,然后把采集到的数据喂给 target policy 去学习。而且喂给目标策略的数据中并不需要 A t + 1 A_{t+1} At+1 ,而 Sarsa 是要有 A t + 1 A_{t+1} At+1 的。Behavior policy 像是一个战士,可以在环境里面探索所有的动作、轨迹和经验,然后把这些经验交给目标策略去学习。比如目标策略优化的时候,Q-learning 才不管你下一步去往哪里探索,会不会掉进悬崖,我就只选我收益最大一个最优的策略。
Off-policy learning 有很多优点:
- 我们可以利用 exploratory policy 来学到一个最佳的策略,学习效率高;
- 可以让我们学习其他 agent 的行为,模仿学习,学习人或者其他 agent 产生的轨迹;
- 重用老的策略产生的轨迹。探索过程需要很多计算资源,这样的话,可以节省资源。
Q-learning 的算法有两种 policy:behavior policy 和 target policy。
- Target policy π 直接在 Q-table 上取 greedy,就取它下一步能得到的所有状态,(确定性策略)如下式所示:
π ( S t + 1 ) = arg max a ′ Q ( S t + 1 , a ′ ) \pi\left(S_{t+1}\right)=\underset{a^{\prime}}{\arg \max}~ Q\left(S_{t+1}, a^{\prime}\right) π(St+1)=a′argmax Q(St+1,a′)
- Behavior policy μ 可以是一个随机的 policy,但我们采取 ε -greedy \varepsilon\text{-greedy} ε-greedy,让 behavior policy 不至于是完全随机的,它是基于 Q-table 逐渐改进的(探索性策略)。
Target Policy更新公式:
Q
(
S
t
,
A
t
)
←
Q
(
S
t
,
A
t
)
+
α
[
R
t
+
1
+
γ
m
a
x
a
Q
(
S
t
+
1
,
a
)
−
Q
(
S
t
,
A
t
)
]
Q(S_t,A_t)←Q(S_t,A_t)+α[R_{t+1}+γmax_a Q(S_{t+1},a)−Q(S_t,A_t)]
Q(St,At)←Q(St,At)+α[Rt+1+γmaxaQ(St+1,a)−Q(St,At)]
Sarsa 和 Q-learning 的更新公式都是一样的,区别只在 target 计算的这一部分,
- Sarsa 是 R t + 1 + γ Q ( S t + 1 , A t + 1 ) R_{t+1}+\gamma Q(S_{t+1}, A_{t+1}) Rt+1+γQ(St+1,At+1);
- Q-learning 是 R t + 1 + γ max a Q ( S t + 1 , a ) R_{t+1}+\gamma \underset{a}{\max} Q\left(S_{t+1}, a\right) Rt+1+γamaxQ(St+1,a) 。
Sarsa 是用自己的策略产生了 S,A,R,S’,A’ 这一条轨迹。然后拿着 Q ( S t + 1 , A t + 1 ) Q(S_{t+1},A_{t+1}) Q(St+1,At+1)去更新原本的 Q 值 Q ( S t , A t ) Q(S_t,A_t) Q(St,At)。
Q-learning 并不需要知道我实际上选择哪一个 action ,它默认下一个动作就是 Q 最大的那个动作。Q-learning 知道实际上 behavior policy 可能会有 10% 的概率去选择别的动作,但 Q-learning 并不担心受到探索的影响,它默认了就按照最优的策略来去优化目标策略,所以它可以更大胆地去寻找最优的路径,它会表现得比 Sarsa 大胆非常多。
4. On-policy vs Off-policy
- Sarsa 是一个典型的 on-policy 策略,它只用了一个 policy π 。如果 policy 采用 ε-greedy 算法的话,它需要兼顾探索,为了兼顾探索和利用,它训练的时候会显得有点胆小怕事。它在解决悬崖问题的时候,会尽可能地离悬崖边上远远的,确保说哪怕自己不小心探索了一点,也还是在安全区域内。此外,因为采用的是 ε-greedy 算法,策略会不断改变(ε 会不断变小),所以策略不稳定。
- Q-learning 是一个典型的 off-policy 的策略,它有两种策略:target policy 和 behavior policy。它分离了目标策略跟行为策略。Q-learning 就可以大胆地用 behavior policy 去探索得到的经验轨迹来去优化目标策略,从而更有可能去探索到最优的策略。Behavior policy 可以采用 ε-greedy 算法,但 target policy 采用的是 greedy 算法,直接根据 behavior policy 采集到的数据来采用最优策略,所以 Q-learning 不需要兼顾探索。
- 比较 Q-learning 和 Sarsa 的更新公式可以发现,Sarsa 并没有选取最大值的 max 操作。
- 因此,Q-learning 是一个非常激进的算法,希望每一步都获得最大的利益;
- 而 Sarsa 则相对非常保守,会选择一条相对安全的迭代路线。
参考文献
https://datawhalechina.github.io/leedeeprl-notes/#/chapter3/chapter3?id=temporal-difference
https://mp.weixin.qq.com/s/34E1tEQMZuaxvZA66_HRwA
https://www.bilibili.com/video/BV1yv411i7xd?p=6