周志华西瓜书《机器学习》习题提示——第8章_西瓜书第八章课后答案-CSDN博客

本文链接：https://blog.csdn.net/qiy_icbc/article/details/131877785

本文详细解答了关于机器学习的一系列习题，涉及贝叶斯决策论、AdaBoost和GradientBoosting的区别、决策树与随机森林的学习效率、以及Bagging和Boosting的结合应用。内容涵盖了偏差与方差的平衡、集成学习策略以及KNN等基础概念。

摘要由CSDN通过智能技术生成

习题提示

8.1：
通过如下表1对比即易证。

8.2：
$\begin{align} {\ell}[H|D]&=\mathop{\mathbb{E} }\limits_{\boldsymbol{x}}{\ell} (-f(\boldsymbol{x})H(\boldsymbol{x}))\notag\\ &={\ell} (H(\boldsymbol{x}))P(f(\boldsymbol{x})=-1)+{\ell} (-H(\boldsymbol{x}))P(f(\boldsymbol{x})=1) \tag{1} \end{align}$
令 $\frac{\partial{ {\ell}[H|D]} }{\partial H}=0$ ，即：

$\begin{align} \frac{\partial{{\ell} (H(\boldsymbol{x}))} }{\partial H(\boldsymbol{x})}P(f(\boldsymbol{x})=-1)&= \frac{\partial{{\ell} (-H(\boldsymbol{x}))} }{\partial (-H(\boldsymbol{x}))}P(f(\boldsymbol{x})=1) \tag{2}\\ \frac{\partial{{\ell} (u)} }{\partial u}P(f(\boldsymbol{x})=-1)&= \frac{\partial{{\ell} (v)} }{\partial (v)}P(f(\boldsymbol{x})=1) \tag{3}\\ u=H(\boldsymbol{x}),&\ v=-u\notag\\ \end{align}$
对式(3)求u在区间 $[-H(\boldsymbol{x},0]$ 的定积分:
$\begin{align} \int_{-H(\boldsymbol{x})}^{0} \frac{\partial{{\ell} (u)} }{\partial u}P(f(\boldsymbol{x})=-1)\,du&= \int_{-H(\boldsymbol{x})}^{0} \frac{\partial{{\ell} (v)} }{\partial v}P(f(\boldsymbol{x})=1)\,du\notag\\ \int_{-H(\boldsymbol{x})}^{0} \frac{\partial{{\ell} (u)} }{\partial u}P(f(\boldsymbol{x})=-1)\,du&= -\int_{0}^{H(\boldsymbol{x}} \frac{\partial{{\ell} (v)} }{\partial v}P(f(\boldsymbol{x})=1)\,dv\notag\\ {\ell} (u)\vert _{-H(\boldsymbol{x})}^{0}P(f(\boldsymbol{x})=-1)&= -{\ell} (u)\vert _{0}^{H(\boldsymbol{x}}P(f(\boldsymbol{x})=1)\notag\\ ({\ell} (0)-{\ell} (-H(\boldsymbol{x})))P(f(\boldsymbol{x})=-1)&= ({\ell} (0)-{\ell} (H(\boldsymbol{x})))P(f(\boldsymbol{x})=1)\notag\\ \frac{P(f(\boldsymbol{x})=1)}{P(f(\boldsymbol{x})=-1)}&=\frac{{\ell} (0)-{\ell} (-H(\boldsymbol{x}))}{{\ell} (0)-{\ell} (H(\boldsymbol{x}))} \tag{4} \end{align}$
由题设， $H(\boldsymbol{x})$ 在区间 $（-\infty ,\delta ],\, \delta>0$ 上泛函 ${\ell} [-f(\boldsymbol{x})H(\boldsymbol{x})]$ 的单调递减，得泛函 ${\ell} [-H]$ 在该区间上也单调递减。

由式(4)得如下推导：
$\begin{align} &P(f(\boldsymbol{x})=1)\geqslant P(f(\boldsymbol{x})=-1) \tag{5}\\ \Longleftrightarrow &{\ell} (0)-{\ell} (-H(\boldsymbol{x}))\geqslant {\ell} (0)-{\ell} (H(\boldsymbol{x}))\notag\\ \Longleftrightarrow &{\ell} (-H(\boldsymbol{x}))\leqslant {\ell} (H(\boldsymbol{x}))\notag\\ \Longleftrightarrow &{\ell} (-H(\boldsymbol{x}))\leqslant {\ell} (-(-H(\boldsymbol{x})))\notag\\ \Longleftrightarrow &H(\boldsymbol{x})\geqslant (-H(\boldsymbol{x}))\quad \text{（由${\ell} [-H]$单调递减）}\notag\\ \Longleftrightarrow &H(\boldsymbol{x})\geqslant 0\notag\\ \Longleftrightarrow &\mathrm{sign}(H(\boldsymbol{x}))\geqslant 0 \tag{6} \end{align}$
由式(5)(6)知， $\mathrm{sign}(H(\boldsymbol{x}))$ 等价于贝叶斯最优分类器（ $0/1$ 损失函数），即一致替代性得证。

8.3：
【西瓜书图8.3】AdaBoost算法中， $h_t=\mathfrak{L} (D,\mathcal{D}_t )$

针对西瓜数据 $3.0\alpha$ ，【西瓜书图8.4】中采用的 $\mathfrak{L}$ 是决策桩，而本题要求的是不剪枝决策树【西瓜书图4.2】。

8.4：
AdaBoost与GradientBoosting的异同：

（1）都是采用加性模型进行递推；

（2）都是进行不断改善估值，即通过 $h_k$ 调整；

（3）AdaBoost是通过调整分布 $\mathcal{D}_t$ 得到 $h_t$ ，而GradientBoosting是通过残差调整得 $h_t$ ；

（4）AdaBoost的基学习算法可由适合的算法担当，而GradientBoosting的基学习算法通常是决策树。

8.5：
编程的关键是用随机数实现自助采样，而决策树算法在选用的工具包中容易找到。

8.6：
由7.1 贝叶斯决策论（贝叶斯学派与频率学派有很大的分岐）中的式 (7.14)(7.16)知， $h$ 对 $\boldsymbol{x}$ 预测的正确率为：
$\begin{align} P(C) &\leqslant \mathop{\max}\limits_i P(i|\boldsymbol{x})\notag\\ &=P(i^*|\boldsymbol{x}) \tag{7} \end{align}$
其中， $i^*$ 为贝叶斯最优分类器的预测，即 $h^*(\boldsymbol{x})=i^*$ .

（1）当“属性条件独立性假设”满足时，朴素贝叶斯分类器即为贝叶斯最优分类器，其预测的正确率由7.1 贝叶斯决策论（贝叶斯学派与频率学派有很大的分岐）中的式 (7.16)给出，而Bagging分类器的预测正确率由式(7)给出，故二者预测的正确率比较有 $P(C_{bagging})\leqslant P(C_{nb})$ ，即有题中的结论。

（2）Bagging是通过数据样本扰动来产生多个不同的基学习器，如果以朴素贝叶斯分类器作为基学习器模板，则由于朴素贝叶斯分类器对数据样本扰动不敏感，所产生的基学习器“同质化”严重，故Bagging难以提升朴素贝叶斯分类器的性能。

8.7：
Bagging中的决策树是全体属性参与，一是存在组合爆炸，二是选取当前最优划分属性要进行全量比较。而随机森林是采取属性扰动，即对每个基学习器的训练都是选部分属性（相当于降维了），选择划分属性时是在子集中比较（有的算法还不用比较，直接随机选取），故在属性多的情况下，它能大大地提升学习速度。

8.8：
两组合算法中，基学习器又是集成算法，形成多级集成。

（1）Boosting关注降低偏差，Bagging关注降低方差。 IterativeBagging提升性能特点：初级基学习器（不同的算法侧重降低偏差或方差不同） $\longrightarrow$ Bagging基学习器（侧重降低方差） $\longrightarrow$ AdaBoost（侧重降低偏差）。而MutilBoosting算法则相反：初级基学习器（不同的算法侧重降低偏差或方差不同） $\longrightarrow$ AdaBoost（侧重降低偏差） $\longrightarrow$ Bagging基学习器（侧重降低方差）。故应从提升性能需求和初级基学习器的特点进行选择。

（2）Boosting中对学习器训练是采用全部样本（不同分布），而Bagging中对学习器的训练是采用部分样本（自采样获得），IterativeBagging中，先Bagging对数据集 $D$ 取部分样本集 $D^{'}$ 训练，再每个AdaBoost在数据集 $D^{'}$ 上用全量样本进行训练。而MutilBoosting中，先AdaBoost在数据集 $D$ 上使用全部样本训练，再每个Bagging取部分样本 $D^{'}$ 进行训练。显然，IterativeBagging更有利于获得测试集 $D\setminus D'$ 。