周志华西瓜书《机器学习》习题提示——第12章

习题提示

12.1:
参见12.7 定理的证明技巧(烧脑的数学,好玩的技巧)式(12.43)的证明。

12.2:
参见12.7 定理的证明技巧(烧脑的数学,好玩的技巧)其他证明:(1)【西瓜书引理12.1】的证明

12.3:
参见12.7 定理的证明技巧(烧脑的数学,好玩的技巧)其他证明:(2)【西瓜书推论12.1】的证明

12.4:
参见12.7 定理的证明技巧(烧脑的数学,好玩的技巧)其他证明:(4)【西瓜书例12.1、例12.2】的推广

12.5:
当样本空间有限时,不去谈论VC维,下面设样本空间无限。 对于任意的 n n n,任取 n n n个不同的样本组成样本集 D D D

(1)设示例集 D D D中的样本中无连续属性,以这 n n n个样本构造无限假设空间的表12-1,该表中每一行对应一个对分 h i ( i = 0 , 1 , 2 , ⋯   , 2 n − 1 ) h_i(i=0,1,2,\cdots,2^n-1) hi(i=0,1,2,,2n1),而每个对分 h i h_i hi对应一个决策树桩(以这 n n n个样本作为叶子,按对分 h i h_i hi构造一个决策树桩,即【西瓜书图4.6】的一层决策树),则 { h i } \{h_i\} {hi}打散了 D D D

(2)设示例集 D D D中的样本中含有连续属性(比如, x x x),设连续属性 x x x在上述(1)中的 n n n个样本中共有 k k k个不同的取值 x 1 , x 2 , ⋯   , x k x_1,x_2,\cdots,x_k x1,x2,,xk,现将 x x x轴分为 k k k段,每段包含一个 x i x_i xi,即每个 x i x_i xi对应于一个区间,再将叶子中的 x i x_i xi替换成对应的区间,则上述(1)中的 { h i } \{h_i\} {hi}也打散了 D D D。 对于含多个连续属性的情形类似处理。

由(1)(2)知,决策树桩能打散任意大小( n n n)示例集,故决策树桩的VC维为无限的。

12.6:
类似于12.5题,对于任何的样例集 D D D都可以构造出对分它的 h h h,故其VC维为无限。

12.7:
最近邻分类器(即INN)对于任何的样例集 D D D以其作为预测的 h h h,能对任务测试集样本进行测试,让 D D D中的样本标记任意变化,对应有不同的 h i h_i hi,则 { h i } \{h_i\} {hi}能打散 D D D,由于样例集 D D D的大小没有限定,故最近邻分类器的$\mathcal{H} $的VC维无限。

12.8:
由【西瓜书(12.40)】有:
R ^ Z ( F ) = E σ sup ⁡ c 1 m ∑ i = 1 m σ i c = E σ c m ∑ i = 1 m σ i = c m ∑ i = 1 m E σ σ i = c m ∑ i = 1 m ( 1 2 ⋅ ( − 1 ) + 1 2 ⋅ ( 1 ) ) = 0 \begin{align*} \hat R_Z(\mathcal{F} )&=\mathbb{E} _{\sigma }\mathop{\sup}\limits_c\frac{1}{m}\sum_{i=1}^m\sigma _ic\notag\\ &=\mathbb{E} _{\sigma }\frac{c}{m}\sum_{i=1}^m\sigma _i\notag\\ &=\frac{c}{m}\sum_{i=1}^m\mathbb{E} _{\sigma }\sigma _i\notag\\ &=\frac{c}{m}\sum_{i=1}^m\left(\frac{1}{2}\cdot (-1)+\frac{1}{2}\cdot (1)\right)\notag\\ &=0 \end{align*} R^Z(F)=Eσcsupm1i=1mσic=Eσmci=1mσi=mci=1mEσσi=mci=1m(21(1)+21(1))=0

12.9:
s u p sup sup为凸函数,故有:
s u p ( 1 m ∑ σ i f 1 ( x ) + 1 m ∑ σ i f 2 ( x ) ) ⩽ s u p ( 1 m ∑ σ i f 1 ( x ) ) + s u p ( 1 m ∑ σ i f 2 ( x ) ) \begin{align*} sup\left(\frac{1}{m}\sum \sigma _if_1(\boldsymbol{x})+\frac{1}{m}\sum \sigma _if_2(\boldsymbol{x})\right)\leqslant sup\left(\frac{1}{m}\sum \sigma _if_1(\boldsymbol{x})\right)+sup\left(\frac{1}{m}\sum \sigma _if_2(\boldsymbol{x})\right) \end{align*} sup(m1σif1(x)+m1σif2(x))sup(m1σif1(x))+sup(m1σif2(x))
对其两边取 E σ i \mathbb{E} _{ \sigma _i} Eσi即得。

12.10:
k k k折)交叉验证的损失:
ℓ ^ c v ( L , D ) = 1 k ∑ i = 1 k ℓ ^ ( L D ∖ D i , D i ) \begin{align} \hat{ \ell} _{cv}(\mathfrak{L} ,D)=\frac{1}{k}\sum_{i=1}^k\hat{ \ell} (\mathfrak{L}_{D\setminus D_i} ,D_i) \tag{1} \end{align} ^cv(L,D)=k1i=1k^(LDDi,Di)(1)
其中, ∣ D ∣ = m , ∣ D i ∣ = t , m = t × k |D|=m,|D_i|=t,m=t\times k D=m,Di=t,m=t×k

在满足【西瓜书定理12.8】条件下,令 β = O ( 1 t ) \beta =O(\frac{1}{t}) β=O(t1),则由【西瓜书(12.58)】有:
ℓ ( L , D ) − ℓ ^ ( L D ∖ D i , D i ) ⩽ O ( 1 t ) \begin{align} { \ell}(\mathfrak{L} ,D)-\hat{ \ell} (\mathfrak{L}_{D\setminus D_i} ,D_i)\leqslant O(\frac{1}{\sqrt{t}}) \tag{2} \end{align} (L,D)^(LDDi,Di)O(t 1)(2)
则:
ℓ ( L , D ) − ℓ ^ c v ( L , D ) = ℓ ( L , D ) − 1 k ∑ i = 1 k ℓ ^ ( L D ∖ D i , D i ) (由式(1) = 1 k ∑ i = 1 k ( ℓ ( L , D ) − ℓ ^ ( L D ∖ D i , D i ) ) ⩽ 1 k ∑ i = 1 k O ( 1 t ) (由式(2)) = 1 k ∑ i = 1 k O ( k m ) = 1 k ∑ i = 1 k O ( 1 m ) = O ( 1 m ) → 0 ( w h e n   m → inf ⁡ ) \begin{align} { \ell}(\mathfrak{L} ,D)-\hat{ \ell} _{cv}(\mathfrak{L} ,D) &={ \ell}(\mathfrak{L} ,D)-\frac{1}{k}\sum_{i=1}^k\hat{ \ell} (\mathfrak{L}_{D\setminus D_i} ,D_i)\quad \text{(由式(1)}\notag\\ &=\frac{1}{k}\sum_{i=1}^k({ \ell}(\mathfrak{L} ,D)-\hat{ \ell} (\mathfrak{L}_{D\setminus D_i} ,D_i))\notag\\ &\leqslant \frac{1}{k}\sum_{i=1}^kO(\frac{1}{\sqrt{t}})\quad \text{(由式(2))}\notag\\ &=\frac{1}{k}\sum_{i=1}^kO(\frac{\sqrt{k}}{\sqrt{m}})\notag\\ &=\frac{1}{k}\sum_{i=1}^kO(\frac{1}{\sqrt{m}})\notag\\ &=O(\frac{1}{\sqrt{m}})\notag\\ &\to 0 \quad (when \, m\to \inf) \tag{3} \end{align} (L,D)^cv(L,D)=(L,D)k1i=1k^(LDDi,Di)(由式(1)=k1i=1k((L,D)^(LDDi,Di))k1i=1kO(t 1)(由式(2)=k1i=1kO(m k )=k1i=1kO(m 1)=O(m 1)0(whenminf)(3)
故可用 ℓ ^ c v ( L , D ) \hat{ \ell} _{cv}(\mathfrak{L} ,D) ^cv(L,D)来估计泛化误差 ℓ ( L , D ) { \ell}(\mathfrak{L} ,D) (L,D)

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:周志华西瓜书《机器学习》习题提示——第11章
下一篇:13.1 生成式方法详解(样本数据都是由同一个潜在的模型“生成”的)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值