习题提示
16.1:
结合算法【西瓜书图16.4】中的变量,将题目中的式子变为:
Q
(
k
)
+
2
ln
t
c
o
u
n
t
(
k
)
\begin{align} Q(k)+\sqrt{\frac{2\ln \,t}{count(k)}} \tag{1} \end{align}
Q(k)+count(k)2lnt(1)
由式(1)可知,与
ϵ
\epsilon
ϵ-贪心法和Softmax不同点是:它是确定性算法。 将【西瓜书图16.4】中第4-8句关于
k
k
k的选择改为如下一句,即得UCB算法。
k
=
arg
max
Q
(
k
)
+
2
ln
t
c
o
u
n
t
(
k
)
\begin{align} k=\arg\max\ Q(k)+\sqrt{\frac{2\ln \,t}{count(k)}} \tag{2} \end{align}
k=argmax Q(k)+count(k)2lnt(2)
16.2:
将【西瓜书图16.7】中第3句改为【西瓜书(16.8)】式即可。
16.3:
将【西瓜书图16.8】中第4句改为【西瓜书(16.8)】,其中第11句中计算Q使用的是【西瓜书(16.10)】的第2式。
16.4:
题干所述方法为两步法:1、随机采样得到样本集,以该样本集训练一个模型;2、使用有模型的强化学习方法继续训练。
优点:可以采用并行技术大量采样,使得样本集足够大,从而获得较精确的MDP模型用于强化学习;MDP模型建立后,可以重用。
缺点:两步法的两步是割裂的,较之免模型强化学习更耗算力。
16.5:
参见16.9 时序差分学习(Sara算法与Q-学习算法)中式 (16.86)的推导及说明。
16.6:
比较【西瓜书图16.12】与【西瓜书图16.13】的差异即可对应修改【西瓜书图16.14】。
16.7:
设有
m
m
m个动作:
a
1
,
a
2
,
⋯
,
a
m
a_1,a_2,\cdots,a_m
a1,a2,⋯,am,
n
n
n个状态:
x
1
,
x
2
,
⋯
,
x
n
x_1,x_2,\cdots,x_n
x1,x2,⋯,xn,作神经网络BP,如图1所示,其中,参数
w
,
v
,
θ
,
γ
\boldsymbol{w},\boldsymbol{v,\boldsymbol{\theta }},\boldsymbol{\gamma }
w,v,θ,γ的意义参见【西瓜书图5.7】。
该BP中,输入: x = ( x 1 , x 2 , ⋯ , x n ) \boldsymbol{x}=(x_1,x_2,\cdots,x_n) x=(x1,x2,⋯,xn),输出: x = ( a 1 , a 2 , ⋯ , a m ) \boldsymbol{x}=(a_1,a_2,\cdots,a_m) x=(a1,a2,⋯,am)。
将决策神经网络BP嵌入到Sara算法中,对应于对【西瓜书图16.14】作如下修改:
∘ \circ ∘第1句:初始化参数 w , v , θ , γ \boldsymbol{w},\boldsymbol{v,\boldsymbol{\theta }},\boldsymbol{\gamma } w,v,θ,γ(随机地取非零);
∘ \circ ∘第2句:指定起点: x 0 = ( 0 , 0 , ⋯ , x 0 , 0 , ⋯ , 0 ) \boldsymbol{x}^0=(0,0,\cdots,x^0,0,\cdots,0) x0=(0,0,⋯,x0,0,⋯,0)(由于下标被占用了,BP中常改用上标作为样本编号,即 x 0 \boldsymbol{x}^0 x0为Sara中的 x 0 \boldsymbol{x}_0 x0)及对应的 a 0 = ( 0 , 0 , ⋯ , a 0 , 0 , ⋯ , 0 ) \boldsymbol{a}^0=(0,0,\cdots,a^0,0,\cdots,0) a0=(0,0,⋯,a0,0,⋯,0)(即 ( a 1 , a 2 , ⋯ , a m ) (a_1,a_2,\cdots,a_m) (a1,a2,⋯,am)中保留一个分量,其余全改为0);
∘ \circ ∘第6-7句:修改为BP算法(参考【西瓜书图5.8】,其循环由第3句承担)
⋄ \quad \diamond ⋄以 ( x k , y k ) (\boldsymbol{x}^k,y^k) (xk,yk)输入,由BP(当前参数)网络输出 y ^ k \hat{y}^k y^k;
⋄ \quad \diamond ⋄由【西瓜书(5.10)】得到梯度 g j g_j gj;
⋄ \quad \diamond ⋄由【西瓜书(5.15)】得到梯度 e h e_h eh;
⋄ \quad \diamond ⋄由【西瓜书(5.11)至(5.14)】更新参数 w h j , v i h , θ j , γ h w_{hj},v_{ih},\theta _j,\gamma _h whj,vih,θj,γh;
16.8:
采用核方法,即:
V
θ
(
x
)
=
∑
i
=
1
n
θ
i
κ
(
x
,
x
i
)
\begin{align} V_{\boldsymbol{\theta } }(\boldsymbol{x})=\sum_{i=1}^n\boldsymbol{\theta } _i\kappa (\boldsymbol{x},\boldsymbol{x}_i) \tag{3} \end{align}
Vθ(x)=i=1∑nθiκ(x,xi)(3)
其中,
κ
(
x
,
x
i
)
\kappa (\boldsymbol{x},\boldsymbol{x}_i)
κ(x,xi)为【西瓜书表6.1】中的某一核函数。
即:
V
θ
(
x
)
=
θ
T
K
(
x
,
X
)
\begin{align} V_{\boldsymbol{\theta } }(\boldsymbol{x})=\boldsymbol{\theta }^{\mathrm{T}}\mathbf{K}(\boldsymbol{x},X) \tag{4} \end{align}
Vθ(x)=θTK(x,X)(4)
其中,
K
(
x
,
X
)
=
(
κ
(
x
,
x
1
)
,
κ
(
x
,
x
2
)
,
⋯
,
κ
(
x
,
x
n
)
)
T
\mathbf{K}(\boldsymbol{x},\mathbf{X})=(\kappa (\boldsymbol{x},\boldsymbol{x}_1),\kappa (\boldsymbol{x},\boldsymbol{x}_2),\cdots,\kappa (\boldsymbol{x},\boldsymbol{x}_n))^{\mathrm{T}}
K(x,X)=(κ(x,x1),κ(x,x2),⋯,κ(x,xn))T.
由于式(4)对应于【西瓜书(16.32)】,故【西瓜书(16.36)第一个等号】中可用式(4)代入,得:
θ
=
θ
+
α
[
r
+
γ
θ
T
K
(
x
′
,
X
)
−
θ
T
K
(
x
,
X
)
]
x
\begin{align} \boldsymbol{\theta }=\boldsymbol{\theta }+\alpha [r+\gamma \boldsymbol{\theta }^{\mathrm{T}}\mathbf{K}(\boldsymbol{x}',\mathbf{X})-\boldsymbol{\theta }^{\mathrm{T}}\mathbf{K}(\boldsymbol{x},\mathbf{X})]\boldsymbol{x} \tag{5} \end{align}
θ=θ+α[r+γθTK(x′,X)−θTK(x,X)]x(5)
将算法【西瓜书图16.14】中的第6句更改为式(5)即可。
16.9:
定义机器人的“一步”包括方向和单位长度,方向可以为:东、东南、
⋯
\cdots
⋯、北等八个方向,这样,就形成了一个“棋盘状”地图,再除去障碍物的点,标上目标。 可以通过迭代方式生成奖赏函数。
16.10:
这是一道研讨题。 将决策轨迹分为
k
k
k个阶段(如,下棋分为:开局、中局、残局),将人类专家的决策轨迹数据(“状态-动作”对)按阶段分组):
D
=
D
1
∪
D
2
∪
⋯
∪
D
k
\begin{align} D=D_1\cup D_2\cup \cdots\cup D_k \tag{6} \end{align}
D=D1∪D2∪⋯∪Dk(6)
对每组
D
i
D_i
Di数据集进行学习,学得的策略模型作为强化学习的初始策略,再通过强化学习算法对策略进行优化。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:周志华西瓜书《机器学习》习题提示——第15章
下一篇:1-1 机器也学习?