周志华西瓜书《机器学习》习题提示—

本文链接：https://blog.csdn.net/qiy_icbc/article/details/131898046

习题提示

16.1：
结合算法【西瓜书图16.4】中的变量，将题目中的式子变为：
$\begin{align} Q(k)+\sqrt{\frac{2\ln \,t}{count(k)}} \tag{1} \end{align}$

由式(1)可知，与 $\epsilon$ -贪心法和Softmax不同点是：它是确定性算法。将【西瓜书图16.4】中第4-8句关于 $k$ 的选择改为如下一句，即得UCB算法。
$\begin{align} k=\arg\max\ Q(k)+\sqrt{\frac{2\ln \,t}{count(k)}} \tag{2} \end{align}$

16.2：
将【西瓜书图16.7】中第3句改为【西瓜书(16.8)】式即可。

16.3：
将【西瓜书图16.8】中第4句改为【西瓜书(16.8)】，其中第11句中计算Q使用的是【西瓜书(16.10)】的第2式。

16.4：
题干所述方法为两步法：1、随机采样得到样本集，以该样本集训练一个模型；2、使用有模型的强化学习方法继续训练。

优点：可以采用并行技术大量采样，使得样本集足够大，从而获得较精确的MDP模型用于强化学习；MDP模型建立后，可以重用。

缺点：两步法的两步是割裂的，较之免模型强化学习更耗算力。

16.5：
参见16.9 时序差分学习（Sara算法与Q-学习算法）中式 (16.86)的推导及说明。

16.6：
比较【西瓜书图16.12】与【西瓜书图16.13】的差异即可对应修改【西瓜书图16.14】。

16.7：
设有 $m$ 个动作： $a_1,a_2,\cdots,a_m$ ， $n$ 个状态： $x_1,x_2,\cdots,x_n$ ，作神经网络BP，如图1所示，其中，参数 $\boldsymbol{w},\boldsymbol{v,\boldsymbol{\theta }},\boldsymbol{\gamma }$ 的意义参见【西瓜书图5.7】。
在这里插入图片描述

图1 神经网络BP

该BP中，输入： $\boldsymbol{x}=(x_1,x_2,\cdots,x_n)$ ，输出： $\boldsymbol{x}=(a_1,a_2,\cdots,a_m)$ 。

将决策神经网络BP嵌入到Sara算法中，对应于对【西瓜书图16.14】作如下修改：

$\circ$ 第1句：初始化参数 $\boldsymbol{w},\boldsymbol{v,\boldsymbol{\theta }},\boldsymbol{\gamma }$ （随机地取非零）；

$\circ$ 第2句：指定起点： $\boldsymbol{x}^0=(0,0,\cdots,x^0,0,\cdots,0)$ （由于下标被占用了，BP中常改用上标作为样本编号，即 $\boldsymbol{x}^0$ 为Sara中的 $\boldsymbol{x}_0$ ）及对应的 $\boldsymbol{a}^0=(0,0,\cdots,a^0,0,\cdots,0)$ （即 $(a_1,a_2,\cdots,a_m)$ 中保留一个分量，其余全改为0）；

$\circ$ 第6-7句：修改为BP算法（参考【西瓜书图5.8】，其循环由第3句承担）

$\quad \diamond$ 以 $(\boldsymbol{x}^k,y^k)$ 输入，由BP（当前参数）网络输出 $\hat{y}^k$ ；

$\quad \diamond$ 由【西瓜书(5.10)】得到梯度 $g_j$ ；

$\quad \diamond$ 由【西瓜书(5.15)】得到梯度 $e_h$ ；

$\quad \diamond$ 由【西瓜书(5.11)至(5.14)】更新参数 $w_{hj},v_{ih},\theta _j,\gamma _h$ ；

16.8：
采用核方法，即：
$\begin{align} V_{\boldsymbol{\theta } }(\boldsymbol{x})=\sum_{i=1}^n\boldsymbol{\theta } _i\kappa (\boldsymbol{x},\boldsymbol{x}_i) \tag{3} \end{align}$
其中， $\kappa (\boldsymbol{x},\boldsymbol{x}_i)$ 为【西瓜书表6.1】中的某一核函数。

即：
$\begin{align} V_{\boldsymbol{\theta } }(\boldsymbol{x})=\boldsymbol{\theta }^{\mathrm{T}}\mathbf{K}(\boldsymbol{x},X) \tag{4} \end{align}$
其中， $\mathbf{K}(\boldsymbol{x},\mathbf{X})=(\kappa (\boldsymbol{x},\boldsymbol{x}_1),\kappa (\boldsymbol{x},\boldsymbol{x}_2),\cdots,\kappa (\boldsymbol{x},\boldsymbol{x}_n))^{\mathrm{T}}$ .

由于式(4)对应于【西瓜书(16.32)】，故【西瓜书(16.36)第一个等号】中可用式(4)代入，得：
$\begin{align} \boldsymbol{\theta }=\boldsymbol{\theta }+\alpha [r+\gamma \boldsymbol{\theta }^{\mathrm{T}}\mathbf{K}(\boldsymbol{x}',\mathbf{X})-\boldsymbol{\theta }^{\mathrm{T}}\mathbf{K}(\boldsymbol{x},\mathbf{X})]\boldsymbol{x} \tag{5} \end{align}$

将算法【西瓜书图16.14】中的第6句更改为式(5)即可。

16.9：
定义机器人的“一步”包括方向和单位长度，方向可以为：东、东南、 $\cdots$ 、北等八个方向，这样，就形成了一个“棋盘状”地图，再除去障碍物的点，标上目标。可以通过迭代方式生成奖赏函数。

16.10：
这是一道研讨题。将决策轨迹分为 $k$ 个阶段（如，下棋分为：开局、中局、残局），将人类专家的决策轨迹数据（“状态-动作”对）按阶段分组）：
$\begin{align} D=D_1\cup D_2\cup \cdots\cup D_k \tag{6} \end{align}$
对每组 $D_i$ 数据集进行学习，学得的策略模型作为强化学习的初始策略，再通过强化学习算法对策略进行优化。