周志华西瓜书《机器学习》习题提示——第8章

习题提示

8.1:
通过如下表1对比即易证。

8.2:
ℓ [ H ∣ D ] = E x ℓ ( − f ( x ) H ( x ) ) = ℓ ( H ( x ) ) P ( f ( x ) = − 1 ) + ℓ ( − H ( x ) ) P ( f ( x ) = 1 ) \begin{align} {\ell}[H|D]&=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}{\ell} (-f(\boldsymbol{x})H(\boldsymbol{x}))\notag\\ &={\ell} (H(\boldsymbol{x}))P(f(\boldsymbol{x})=-1)+{\ell} (-H(\boldsymbol{x}))P(f(\boldsymbol{x})=1) \tag{1} \end{align} [HD]=xE(f(x)H(x))=(H(x))P(f(x)=1)+(H(x))P(f(x)=1)(1)
∂ ℓ [ H ∣ D ] ∂ H = 0 \frac{\partial{ {\ell}[H|D]} }{\partial H}=0 H[HD]=0,即:

∂ ℓ ( H ( x ) ) ∂ H ( x ) P ( f ( x ) = − 1 ) = ∂ ℓ ( − H ( x ) ) ∂ ( − H ( x ) ) P ( f ( x ) = 1 ) ∂ ℓ ( u ) ∂ u P ( f ( x ) = − 1 ) = ∂ ℓ ( v ) ∂ ( v ) P ( f ( x ) = 1 ) u = H ( x ) ,   v = − u \begin{align} \frac{\partial{{\ell} (H(\boldsymbol{x}))} }{\partial H(\boldsymbol{x})}P(f(\boldsymbol{x})=-1)&= \frac{\partial{{\ell} (-H(\boldsymbol{x}))} }{\partial (-H(\boldsymbol{x}))}P(f(\boldsymbol{x})=1) \tag{2}\\ \frac{\partial{{\ell} (u)} }{\partial u}P(f(\boldsymbol{x})=-1)&= \frac{\partial{{\ell} (v)} }{\partial (v)}P(f(\boldsymbol{x})=1) \tag{3}\\ u=H(\boldsymbol{x}),&\ v=-u\notag\\ \end{align} H(x)(H(x))P(f(x)=1)u(u)P(f(x)=1)u=H(x),=(H(x))(H(x))P(f(x)=1)=(v)(v)P(f(x)=1) v=u(2)(3)
对式(3)求u在区间 [ − H ( x , 0 ] [-H(\boldsymbol{x},0] [H(x,0]的定积分:
∫ − H ( x ) 0 ∂ ℓ ( u ) ∂ u P ( f ( x ) = − 1 )   d u = ∫ − H ( x ) 0 ∂ ℓ ( v ) ∂ v P ( f ( x ) = 1 )   d u ∫ − H ( x ) 0 ∂ ℓ ( u ) ∂ u P ( f ( x ) = − 1 )   d u = − ∫ 0 H ( x ∂ ℓ ( v ) ∂ v P ( f ( x ) = 1 )   d v ℓ ( u ) ∣ − H ( x ) 0 P ( f ( x ) = − 1 ) = − ℓ ( u ) ∣ 0 H ( x P ( f ( x ) = 1 ) ( ℓ ( 0 ) − ℓ ( − H ( x ) ) ) P ( f ( x ) = − 1 ) = ( ℓ ( 0 ) − ℓ ( H ( x ) ) ) P ( f ( x ) = 1 ) P ( f ( x ) = 1 ) P ( f ( x ) = − 1 ) = ℓ ( 0 ) − ℓ ( − H ( x ) ) ℓ ( 0 ) − ℓ ( H ( x ) ) \begin{align} \int_{-H(\boldsymbol{x})}^{0} \frac{\partial{{\ell} (u)} }{\partial u}P(f(\boldsymbol{x})=-1)\,du&= \int_{-H(\boldsymbol{x})}^{0} \frac{\partial{{\ell} (v)} }{\partial v}P(f(\boldsymbol{x})=1)\,du\notag\\ \int_{-H(\boldsymbol{x})}^{0} \frac{\partial{{\ell} (u)} }{\partial u}P(f(\boldsymbol{x})=-1)\,du&= -\int_{0}^{H(\boldsymbol{x}} \frac{\partial{{\ell} (v)} }{\partial v}P(f(\boldsymbol{x})=1)\,dv\notag\\ {\ell} (u)\vert _{-H(\boldsymbol{x})}^{0}P(f(\boldsymbol{x})=-1)&= -{\ell} (u)\vert _{0}^{H(\boldsymbol{x}}P(f(\boldsymbol{x})=1)\notag\\ ({\ell} (0)-{\ell} (-H(\boldsymbol{x})))P(f(\boldsymbol{x})=-1)&= ({\ell} (0)-{\ell} (H(\boldsymbol{x})))P(f(\boldsymbol{x})=1)\notag\\ \frac{P(f(\boldsymbol{x})=1)}{P(f(\boldsymbol{x})=-1)}&=\frac{{\ell} (0)-{\ell} (-H(\boldsymbol{x}))}{{\ell} (0)-{\ell} (H(\boldsymbol{x}))} \tag{4} \end{align} H(x)0u(u)P(f(x)=1)duH(x)0u(u)P(f(x)=1)du(u)H(x)0P(f(x)=1)((0)(H(x)))P(f(x)=1)P(f(x)=1)P(f(x)=1)=H(x)0v(v)P(f(x)=1)du=0H(xv(v)P(f(x)=1)dv=(u)0H(xP(f(x)=1)=((0)(H(x)))P(f(x)=1)=(0)(H(x))(0)(H(x))(4)
由题设, H ( x ) H(\boldsymbol{x}) H(x)在区间 ( − ∞ , δ ] ,   δ > 0 (-\infty ,\delta ],\, \delta>0 ,δ],δ>0上泛函 ℓ [ − f ( x ) H ( x ) ] {\ell} [-f(\boldsymbol{x})H(\boldsymbol{x})] [f(x)H(x)]的单调递减,得泛函 ℓ [ − H ] {\ell} [-H] [H]在该区间上也单调递减。

由式(4)得如下推导:
P ( f ( x ) = 1 ) ⩾ P ( f ( x ) = − 1 ) ⟺ ℓ ( 0 ) − ℓ ( − H ( x ) ) ⩾ ℓ ( 0 ) − ℓ ( H ( x ) ) ⟺ ℓ ( − H ( x ) ) ⩽ ℓ ( H ( x ) ) ⟺ ℓ ( − H ( x ) ) ⩽ ℓ ( − ( − H ( x ) ) ) ⟺ H ( x ) ⩾ ( − H ( x ) ) (由 ℓ [ − H ] 单调递减) ⟺ H ( x ) ⩾ 0 ⟺ s i g n ( H ( x ) ) ⩾ 0 \begin{align} &P(f(\boldsymbol{x})=1)\geqslant P(f(\boldsymbol{x})=-1) \tag{5}\\ \Longleftrightarrow &{\ell} (0)-{\ell} (-H(\boldsymbol{x}))\geqslant {\ell} (0)-{\ell} (H(\boldsymbol{x}))\notag\\ \Longleftrightarrow &{\ell} (-H(\boldsymbol{x}))\leqslant {\ell} (H(\boldsymbol{x}))\notag\\ \Longleftrightarrow &{\ell} (-H(\boldsymbol{x}))\leqslant {\ell} (-(-H(\boldsymbol{x})))\notag\\ \Longleftrightarrow &H(\boldsymbol{x})\geqslant (-H(\boldsymbol{x}))\quad \text{(由${\ell} [-H]$单调递减)}\notag\\ \Longleftrightarrow &H(\boldsymbol{x})\geqslant 0\notag\\ \Longleftrightarrow &\mathrm{sign}(H(\boldsymbol{x}))\geqslant 0 \tag{6} \end{align} P(f(x)=1)P(f(x)=1)(0)(H(x))(0)(H(x))(H(x))(H(x))(H(x))((H(x)))H(x)(H(x))(由[H]单调递减)H(x)0sign(H(x))0(5)(6)
由式(5)(6)知, s i g n ( H ( x ) ) \mathrm{sign}(H(\boldsymbol{x})) sign(H(x))等价于贝叶斯最优分类器( 0 / 1 0/1 0/1损失函数),即一致替代性得证。

8.3:
【西瓜书图8.3】AdaBoost算法中, h t = L ( D , D t ) h_t=\mathfrak{L} (D,\mathcal{D}_t ) ht=L(D,Dt)

针对西瓜数据 3.0 α 3.0\alpha 3.0α,【西瓜书图8.4】中采用的 L \mathfrak{L} L是决策桩,而本题要求的是不剪枝决策树【西瓜书图4.2】。

8.4:
AdaBoost与GradientBoosting的异同:

(1)都是采用加性模型进行递推;

(2)都是进行不断改善估值,即通过 h k h_k hk调整;

(3)AdaBoost是通过调整分布 D t \mathcal{D}_t Dt得到 h t h_t ht,而GradientBoosting是通过残差调整得 h t h_t ht

(4)AdaBoost的基学习算法可由适合的算法担当,而GradientBoosting的基学习算法通常是决策树。

8.5:
编程的关键是用随机数实现自助采样,而决策树算法在选用的工具包中容易找到。

8.6:
7.1 贝叶斯决策论(贝叶斯学派与频率学派有很大的分岐)中的式 (7.14)(7.16)知, h h h x \boldsymbol{x} x预测的正确率为:
P ( C ) ⩽ max ⁡ i P ( i ∣ x ) = P ( i ∗ ∣ x ) \begin{align} P(C) &\leqslant \mathop{\max}\limits_i P(i|\boldsymbol{x})\notag\\ &=P(i^*|\boldsymbol{x}) \tag{7} \end{align} P(C)imaxP(ix)=P(ix)(7)
其中, i ∗ i^* i为贝叶斯最优分类器的预测,即 h ∗ ( x ) = i ∗ h^*(\boldsymbol{x})=i^* h(x)=i.

(1)当“属性条件独立性假设”满足时,朴素贝叶斯分类器即为贝叶斯最优分类器,其预测的正确率由7.1 贝叶斯决策论(贝叶斯学派与频率学派有很大的分岐)中的式 (7.16)给出,而Bagging分类器的预测正确率由式(7)给出,故二者预测的正确率比较有 P ( C b a g g i n g ) ⩽ P ( C n b ) P(C_{bagging})\leqslant P(C_{nb}) P(Cbagging)P(Cnb),即有题中的结论。

(2)Bagging是通过数据样本扰动来产生多个不同的基学习器,如果以朴素贝叶斯分类器作为基学习器模板,则由于朴素贝叶斯分类器对数据样本扰动不敏感,所产生的基学习器“同质化”严重,故Bagging难以提升朴素贝叶斯分类器的性能。

8.7:
Bagging中的决策树是全体属性参与,一是存在组合爆炸,二是选取当前最优划分属性要进行全量比较。 而随机森林是采取属性扰动,即对每个基学习器的训练都是选部分属性(相当于降维了),选择划分属性时是在子集中比较(有的算法还不用比较,直接随机选取),故在属性多的情况下,它能大大地提升学习速度。

8.8:
两组合算法中,基学习器又是集成算法,形成多级集成。

(1)Boosting关注降低偏差,Bagging关注降低方差。 IterativeBagging提升性能特点:初级基学习器(不同的算法侧重降低偏差或方差不同) ⟶ \longrightarrow Bagging基学习器(侧重降低方差) ⟶ \longrightarrow AdaBoost(侧重降低偏差)。 而MutilBoosting算法则相反:初级基学习器(不同的算法侧重降低偏差或方差不同) ⟶ \longrightarrow AdaBoost(侧重降低偏差) ⟶ \longrightarrow Bagging基学习器(侧重降低方差)。 故应从提升性能需求和初级基学习器的特点进行选择。

(2)Boosting中对学习器训练是采用全部样本(不同分布),而Bagging中对学习器的训练是采用部分样本(自采样获得),IterativeBagging中,先Bagging对数据集 D D D取部分样本集 D ′ D' D训练,再每个AdaBoost在数据集 D ′ D' D上用全量样本进行训练。 而MutilBoosting中,先AdaBoost在数据集 D D D上使用全部样本训练,再每个Bagging取部分样本 D ′ D' D进行训练。 显然,IterativeBagging更有利于获得测试集 D ∖ D ′ D\setminus D' DD

8.9:
这是一个讨论题,可以参考【西瓜书2.4节】的一些方法进行设计。

8.10:
KNN参见【西瓜书第10章第10.1节】,集成时:

(1)选择加性模型,由 k k k变化而产生多个 h h h,抛弃准确率小于50%的 h h h

(2)利用扰动避免过拟合。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:周志华西瓜书《机器学习》习题提示——第7章
下一篇:8.1 简单投票法(少数服从多数)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 什么是泛化能力?泛化能力和过拟合之间有什么关系? 泛化能力是指模型在新的、未见过的数据上的表现能力。模型的泛化能力与其对训练数据的拟合程度有关,通常来说,过拟合的模型泛化能力较差。 2. 什么是交叉验证?交叉验证的作用是什么? 交叉验证是一种通过将数据集分成若干个子集来进行模型评估的方法。具体地,将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。交叉验证的作用是提高模型评估的可靠性和泛化能力。 3. 留出法、k折交叉验证和留一法的区别是什么?它们各自适用于什么情况? 留出法是将数据集分成两部分,一部分作为训练集,另一部分作为测试集。留出法适用于数据集较大的情况。 k折交叉验证是将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。k折交叉验证适用于数据集较小的情况。 留一法是k折交叉验证的一种特殊情况,即将数据集分成n个子集,每个子集都作为测试集,其余子集作为训练集,重复n次。留一法适用于数据集较小且样本数较少的情况。 4. 为什么要对数据进行预处理?数据预处理的方法有哪些? 数据预处理可以提高模型的表现,并且可以减少过拟合的风险。数据预处理的方法包括:标准化、归一化、缺失值填充、特征选择、特征降维等。 5. 什么是特征选择?特征选择的方法有哪些? 特征选择是指从所有特征中选择出对模型预测结果有重要贡献的特征。特征选择的方法包括:过滤式方法、包裹式方法和嵌入式方法。其中,过滤式方法是基于特征间的关系进行特征选择,包裹式方法是基于模型的性能进行特征选择,嵌入式方法是将特征选择嵌入到模型训练中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值