从零开始的机器学习6-强化学习
智能控制与优化决策课题组制作。
对应周志华《机器学习》第十六章内容。
一些问题
-
1、分析强化学习与监督学习的联系与差别。
-
监督学习就是有导师学习,所学习的样例是有标签的。
强化学习是无导师学习。但实际上,强化学习有一位隐形的 导师,这个导师会告诉你所获得的 奖赏,这些奖赏其实也是一种标签,不过这种标签需要通过学习得到。
2、
ε
\varepsilon
ε-贪心法如何实现探索与利用的平衡。
-
探索指对未知的部分进行尝试和认知,尝试找到较当前最优解更优的解;
利用指使用已知部分的信息,保证解较优。
ε \varepsilon ε贪心法是一种平衡探索与利用的方法,以ϵ ε \varepsilon ε的概率进行探索,以 ε − 1 \varepsilon-1 ε−1的概率进行利用,通常令 ε \varepsilon ε取一个较小的常数,也就是说,以大概率利用,小概率探索。不过,如果你去餐馆的次数足够多了,几乎所有餐馆你都去过了,那里就可以放心的去你现在发现最好吃的餐馆了,所以,探索的概率逐渐减小也是个不错的选择。
3、如何用赌博机算法实现强化学习任务。
-
在玩K-摇臂赌博机时,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定的概率吐出硬币,但这个概率赌徒并不知道,那要如何最大化自己的奖赏呢。最大化奖赏需要做两件事:1)尽可能准确的知道每个摇臂平均奖赏;2)尽可能多的利用平均奖赏最多的那个摇臂。
对于第一件事,需要的是多次尝试,观察记录摇臂按下的次数和获得的奖赏,计算每个摇臂的平均奖赏;对于第二件事,就是尽可能选择平均奖赏多的摇臂。
将赌博机算法用于每个状态,对每个状态分别记录个动作的尝试次数、当前平均累积奖赏等信息,然后基于 ε \varepsilon ε-贪心算法之类的方法选择下一步的动作。
4、试推导
γ
\gamma
γ折扣累积奖赏的全概率展开式(16.8)。
-
V
γ
π
=
E
π
[
∑
t
=
0
∞
γ
t
r
t
+
1
∣
x
0
=
x
]
=
E
π
[
r
1
+
∑
t
=
1
∞
γ
t
r
t
+
1
∣
x
0
=
x
]
=
E
π
[
r
1
+
γ
∑
t
=
1
∞
γ
t
−
1
r
t
+
1
∣
x
0
=
x
]
=
∑
a
∈
A
π
(
x
,
a
)
∑
x
′
∈
X
P
x
→
x
′
a
(
R
x
→
x
′
a
+
γ
E
π
[
∑
t
=
0
∞
γ
t
r
t
+
1
∣
x
0
=
x
′
]
)
=
∑
a
∈
A
π
(
x
,
a
)
∑
x
′
∈
X
P
x
→
x
′
a
(
R
x
→
x
′
a
+
γ
V
γ
π
(
x
′
)
)
\begin{aligned} V^\pi_\gamma&=\mathbb{E}_\pi[\sum^\infin_{t=0} \gamma^tr_{t+1}|x_0=x]\\ &=\mathbb{E}_\pi[r_1+\sum^\infin_{t=1}\gamma^tr_{t+1}|x_0=x]\\ &=\mathbb{E}_\pi[r_1+\gamma\sum^\infin_{t=1}\gamma^{t-1}r_{t+1}|x_0=x]\\ &=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P^a_{x\rightarrow x'} (R^a_{x\rightarrow x'}+\gamma\mathbb{E}_\pi [\sum^\infin_{t=0}\gamma^tr_{t+1}|x_0=x'])\\ &=\sum_{a\in A}\pi(x,a)\sum_{x'\in X}P^a_{x\rightarrow x'} (R^a_{x\rightarrow x'}+\gamma V^\pi_\gamma(x')) \end{aligned}
Vγπ=Eπ[t=0∑∞γtrt+1∣x0=x]=Eπ[r1+t=1∑∞γtrt+1∣x0=x]=Eπ[r1+γt=1∑∞γt−1rt+1∣x0=x]=a∈A∑π(x,a)x′∈X∑Px→x′a(Rx→x′a+γEπ[t=0∑∞γtrt+1∣x0=x′])=a∈A∑π(x,a)x′∈X∑Px→x′a(Rx→x′a+γVγπ(x′))
其中, π ( x , a ) \pi(x,a) π(x,a)表示在 x x x状态下执行动作 a a a的概率; P x → x ′ a P^a_{x\rightarrow x'} Px→x′a表示执行动作 a a a之后转移到状态 x ′ x' x′的概率; R x → x ′ a + γ V γ π ( x ′ ) R^a_{x\rightarrow x'}+\gamma V^\pi_\gamma(x') Rx→x′a+γVγπ(x′)表示到达状态 x ′ x' x′所能获得的奖赏,其中 R x → x ′ a R^a_{x\rightarrow x'} Rx→x′a为即时奖赏, γ V γ π ( x ′ ) \gamma V^\pi_\gamma(x') γVγπ(x′)为未来奖赏的估计。
5、什么是动态规划中的最优性原理,与强化学习中的策略更新有什么关系
-
最优性原理:一个最优策略的子策略必须是最优的。
在强化学习中,策略实际上是状态到动作的映射,在某一个状态下,策略决定了采取什么动作。
如果每一个状态下采取的动作都是最优动作,那么,总的策略也会是最优的。
6、完成时序差分学习中式(16.31)的推导。
-
时序差分学习的特点就是每执行一步策略后就进行值函数的更新。
在计算第 t + 1 t+1 t+1个采样 r t + 1 r_{t+1} rt+1时按照增量平均公式有:
Q t + 1 π ( x , a ) = Q t π ( x , a ) + 1 t + 1 ( r t + 1 − Q t π ( x , a ) ) Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\frac{1}{t+1}(r_{t+1}-Q^\pi_{t}(x,a)) Qt+1π(x,a)=Qtπ(x,a)+t+11(rt+1−Qtπ(x,a))
采用近似的方法,令 α = α t + 1 , α \alpha=\alpha_{t+1},\alpha α=αt+1,α为较小的整数。这种近似在 t t t增大时是收敛的。结合策略改进方式(16.15)有:
r t + 1 = ( R x → x ′ a + γ max a ′ ∈ A + Q t π ( x ′ , a ′ ) r_{t+1}=(R^a_{x\rightarrow x'}+\gamma\max\limits_{a'\in A}+Q^\pi_{t}(x',a') rt+1=(Rx→x′a+γa′∈Amax+Qtπ(x′,a′)
推出:
Q t + 1 π ( x , a ) = Q t π ( x , a ) + α ( R x → x ′ a + γ max a ′ ∈ A Q t π ( x ′ , a ′ ) − Q t π ( x , a ) ) Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x'}+\gamma\max\limits_{a'\in A}Q^\pi_{t}(x',a')-Q^\pi_{t}(x,a)) Qt+1π(x,a)=Qtπ(x,a)+α(Rx→x′a+γa′∈AmaxQtπ(x′,a′)−Qtπ(x,a))
综合 ε \varepsilon ε-贪心法可以的到:
Q t + 1 π ( x , a ) = Q t π ( x , a ) + α ( R x → x ′ a + γ Q t π ( x ′ , a ′ ) − Q t π ( x , a ) ) Q^\pi_{t+1}(x,a)=Q^\pi_{t}(x,a)+\alpha (R^a_{x\rightarrow x'}+\gamma Q^\pi_{t}(x',a')-Q^\pi_{t}(x,a)) Qt+1π(x,a)=Qtπ(x,a)+α(Rx→x′a+γQtπ(x′,a′)−Qtπ(x,a))