周志华西瓜书《机器学习》习题提示——第16章

习题提示

16.1:
结合算法【西瓜书图16.4】中的变量,将题目中的式子变为:
Q ( k ) + 2 ln ⁡   t c o u n t ( k ) \begin{align} Q(k)+\sqrt{\frac{2\ln \,t}{count(k)}} \tag{1} \end{align} Q(k)+count(k)2lnt (1)

由式(1)可知,与 ϵ \epsilon ϵ-贪心法和Softmax不同点是:它是确定性算法。 将【西瓜书图16.4】中第4-8句关于 k k k的选择改为如下一句,即得UCB算法。
k = arg ⁡ max ⁡   Q ( k ) + 2 ln ⁡   t c o u n t ( k ) \begin{align} k=\arg\max\ Q(k)+\sqrt{\frac{2\ln \,t}{count(k)}} \tag{2} \end{align} k=argmax Q(k)+count(k)2lnt (2)

16.2:
将【西瓜书图16.7】中第3句改为【西瓜书(16.8)】式即可。

16.3:
将【西瓜书图16.8】中第4句改为【西瓜书(16.8)】,其中第11句中计算Q使用的是【西瓜书(16.10)】的第2式。

16.4:
题干所述方法为两步法:1、随机采样得到样本集,以该样本集训练一个模型;2、使用有模型的强化学习方法继续训练。

优点:可以采用并行技术大量采样,使得样本集足够大,从而获得较精确的MDP模型用于强化学习;MDP模型建立后,可以重用。

缺点:两步法的两步是割裂的,较之免模型强化学习更耗算力。

16.5:
参见16.9 时序差分学习(Sara算法与Q-学习算法)中式 (16.86)的推导及说明。

16.6:
比较【西瓜书图16.12】与【西瓜书图16.13】的差异即可对应修改【西瓜书图16.14】。

16.7:
设有 m m m个动作: a 1 , a 2 , ⋯   , a m a_1,a_2,\cdots,a_m a1,a2,,am n n n个状态: x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn,作神经网络BP,如图1所示,其中,参数 w , v , θ , γ \boldsymbol{w},\boldsymbol{v,\boldsymbol{\theta }},\boldsymbol{\gamma } w,v,θ,γ的意义参见【西瓜书图5.7】。
在这里插入图片描述

图1 神经网络BP

该BP中,输入: x = ( x 1 , x 2 , ⋯   , x n ) \boldsymbol{x}=(x_1,x_2,\cdots,x_n) x=(x1,x2,,xn),输出: x = ( a 1 , a 2 , ⋯   , a m ) \boldsymbol{x}=(a_1,a_2,\cdots,a_m) x=(a1,a2,,am)

将决策神经网络BP嵌入到Sara算法中,对应于对【西瓜书图16.14】作如下修改:

∘ \circ 第1句:初始化参数 w , v , θ , γ \boldsymbol{w},\boldsymbol{v,\boldsymbol{\theta }},\boldsymbol{\gamma } w,v,θ,γ(随机地取非零);

∘ \circ 第2句:指定起点: x 0 = ( 0 , 0 , ⋯   , x 0 , 0 , ⋯   , 0 ) \boldsymbol{x}^0=(0,0,\cdots,x^0,0,\cdots,0) x0=(0,0,,x0,0,,0)(由于下标被占用了,BP中常改用上标作为样本编号,即 x 0 \boldsymbol{x}^0 x0为Sara中的 x 0 \boldsymbol{x}_0 x0)及对应的 a 0 = ( 0 , 0 , ⋯   , a 0 , 0 , ⋯   , 0 ) \boldsymbol{a}^0=(0,0,\cdots,a^0,0,\cdots,0) a0=(0,0,,a0,0,,0)(即 ( a 1 , a 2 , ⋯   , a m ) (a_1,a_2,\cdots,a_m) (a1,a2,,am)中保留一个分量,其余全改为0);

∘ \circ 第6-7句:修改为BP算法(参考【西瓜书图5.8】,其循环由第3句承担)

⋄ \quad \diamond ( x k , y k ) (\boldsymbol{x}^k,y^k) (xk,yk)输入,由BP(当前参数)网络输出 y ^ k \hat{y}^k y^k

⋄ \quad \diamond 由【西瓜书(5.10)】得到梯度 g j g_j gj

⋄ \quad \diamond 由【西瓜书(5.15)】得到梯度 e h e_h eh

⋄ \quad \diamond 由【西瓜书(5.11)至(5.14)】更新参数 w h j , v i h , θ j , γ h w_{hj},v_{ih},\theta _j,\gamma _h whj,vih,θj,γh

16.8:
采用核方法,即:
V θ ( x ) = ∑ i = 1 n θ i κ ( x , x i ) \begin{align} V_{\boldsymbol{\theta } }(\boldsymbol{x})=\sum_{i=1}^n\boldsymbol{\theta } _i\kappa (\boldsymbol{x},\boldsymbol{x}_i) \tag{3} \end{align} Vθ(x)=i=1nθiκ(x,xi)(3)
其中, κ ( x , x i ) \kappa (\boldsymbol{x},\boldsymbol{x}_i) κ(x,xi)为【西瓜书表6.1】中的某一核函数。

即:
V θ ( x ) = θ T K ( x , X ) \begin{align} V_{\boldsymbol{\theta } }(\boldsymbol{x})=\boldsymbol{\theta }^{\mathrm{T}}\mathbf{K}(\boldsymbol{x},X) \tag{4} \end{align} Vθ(x)=θTK(x,X)(4)
其中, K ( x , X ) = ( κ ( x , x 1 ) , κ ( x , x 2 ) , ⋯   , κ ( x , x n ) ) T \mathbf{K}(\boldsymbol{x},\mathbf{X})=(\kappa (\boldsymbol{x},\boldsymbol{x}_1),\kappa (\boldsymbol{x},\boldsymbol{x}_2),\cdots,\kappa (\boldsymbol{x},\boldsymbol{x}_n))^{\mathrm{T}} K(x,X)=(κ(x,x1),κ(x,x2),,κ(x,xn))T.

由于式(4)对应于【西瓜书(16.32)】,故【西瓜书(16.36)第一个等号】中可用式(4)代入,得:
θ = θ + α [ r + γ θ T K ( x ′ , X ) − θ T K ( x , X ) ] x \begin{align} \boldsymbol{\theta }=\boldsymbol{\theta }+\alpha [r+\gamma \boldsymbol{\theta }^{\mathrm{T}}\mathbf{K}(\boldsymbol{x}',\mathbf{X})-\boldsymbol{\theta }^{\mathrm{T}}\mathbf{K}(\boldsymbol{x},\mathbf{X})]\boldsymbol{x} \tag{5} \end{align} θ=θ+α[r+γθTK(x,X)θTK(x,X)]x(5)

将算法【西瓜书图16.14】中的第6句更改为式(5)即可。

16.9:
定义机器人的“一步”包括方向和单位长度,方向可以为:东、东南、 ⋯ \cdots 、北等八个方向,这样,就形成了一个“棋盘状”地图,再除去障碍物的点,标上目标。 可以通过迭代方式生成奖赏函数。

16.10:
这是一道研讨题。 将决策轨迹分为 k k k个阶段(如,下棋分为:开局、中局、残局),将人类专家的决策轨迹数据(“状态-动作”对)按阶段分组):
D = D 1 ∪ D 2 ∪ ⋯ ∪ D k \begin{align} D=D_1\cup D_2\cup \cdots\cup D_k \tag{6} \end{align} D=D1D2Dk(6)
对每组 D i D_i Di数据集进行学习,学得的策略模型作为强化学习的初始策略,再通过强化学习算法对策略进行优化。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:周志华西瓜书《机器学习》习题提示——第15章
下一篇:1-1 机器也学习?

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值