周志华《机器学习》第二章读书笔记以及课后习题答案

最新推荐文章于 2022-06-18 21:05:44 发布

纵深

最新推荐文章于 2022-06-18 21:05:44 发布

阅读量1.4k

点赞数 6

分类专栏：机器学习文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/qq_42364307/article/details/110433294

版权

机器学习专栏收录该内容

9 篇文章 5 订阅

订阅专栏

读书笔记

1.分类错误的样本数占样本总数的比例称为错误率，如果在 $m$ 个样本中有 $a$ 个样本分类错误，设错误率为 $E$ ，精度为 $A$ ，则
$a/m,A=(1-E)*100\%$
2.学习器的实际预测输出与样本的真实输出之间的差异称为“误差”，学习器在训练集上的误差称为“训练误差”或“经验误差”，在新样本上的误差称为“泛化误差”。

3.过拟合和欠拟合
当学习器把训练样本学习的“太好”了的时候，会导致泛化性下降，也就是面对新样本，效果不佳，这种现象称之为“过拟合”（与之相反，训练不够，称之为“欠拟合”）

	解决方案
过拟合	学习能力过于强大，不可避免，只能缓解
欠拟合	学习能力不足，加大学习

4.在现实中，往往有多种算法可以选择，甚至对同一个学习算法，当使用不同的参数配置，也会产生不同的模型。如何选择，这就是“模型选择”。
理想解决方案是对候选模型的泛化误差进行评估，选择误差最小的模型。

5.可以使用测试集来测试学习器对新样本的判别能力，然后以测试集上的“测试误差”作为泛化误差的近似。

6.留出法
直接将数据集 $D$ 划分为两个互斥的集合，其中一个集合作为训练集 $S$ ，另一个作为测试集 $T$ ，即 $\cup T，S \cap T=\varnothing$
保留类别比例的采样方式通常称为“分层采样”。
一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。
大约2/3~4/5的样本用于训练，剩余样本用于测试

7.交叉验证法
将数据集D划分为k个大小相似的互斥子集，每个子集 $D_{i}$ 互斥，即 $(D=D_{1}\cup D_{2}\cup ...\cup D_{k},D_{i}\cap D_{j}= \varnothing)$
尽可能保持数据分析一致性，从 $D$ 中分层采样得到。
每次用 $k - 1$ 个子集的并集作为训练集，余下子集都为测试集，最终返回 $k$ 个测试结果的均值。
又称“ $k$ 折交叉验证”, $k$ 通常取10，称为10折交叉验证
将数据集 $D$ 划分为 $k$ 个子集同样存在多种划分方式，为减少因样本划分不同而引入的差别，通常要随机使用不同的划分重复 $p$ 次，最终结果是第 $p$ 次 $k$ 折交叉验证的均值
常见10次10折交叉验证

8.自助法
优点：减少训练样本规模不同造成的影响，同时还能比较高效地进行实验估计。
给定包含 $m$ 个样子的数据集 $D$ ,采用产生数据集 $D^{'}$ ，每次随机从 $D$ 中挑选一个样本，拷贝放入 $D^{'}$ ，将此过程重复执行 $m$ 次，得到包含 $m$ 个样本的数据集 $D^{'}$ 。我们使用 $D^{'}$ 用于训练集， $\ D ′ D\backslash D^{'}$ 用作测试集。
自助法在数据集较小、难以有效划分训练/测试集时很有用。初始数据量足够时，留出法和交叉验证法更常用一些。

9.调参和算法选择没有本质区别，调参很重要！

10.衡量模型泛化能力的评价标准是性能度量。
回归任务常用的性能度量是“均方误差”
$E(f;D)=1/m\sum_{i=1}^{m}(f(x_{i})-y_{i})^{2}$
对于数据发布 $D$ 和概率密度函数 $p(\cdot)$ ，均方误差可描述为
$E(f;D)=1/m\int_{x-D}(f(x_{i})-y)^{2}p(x)dx$

11.分类任务最常用的两种性能度量是错误率和精度，错误率和精度定义如下
$E(f;D)=1/m\sum_{i=1}^{m}\mathbb{I}(f(x_{i}) \neq y_{i})$
$acc(f;D)=1/m\sum_{i=1}^{m}\mathbb{I}(f(x_{i}) = y_{i})$
12.“查准率”与“查全率”更为适用于此类需求的性能。

真实情况	预测正例	预测反例
正例	$T P$ （真正例）	$F N$ （假反例）
反例	$F P$ （假正例）	$T N$ （真反例）

显然有 $T P + F P + T N + F N =$ 样例总数
查准率 $P$ 与查全率 $R$ 分别定义为
$P = T P / (T P + F P)$
$R = T P / (T P + F N)$
查准率高和查全率是一对矛盾的度量。一般来说，查准率高，查全率往往偏低；查全率高，查准率往往偏低。
画出 $P - R$ 曲线，若一个学习器的 $P - R$ 曲线被另一个学习器的曲线完全“包住”，则可断言后者性能优于前者。
BEP度量：“查准率=查全率”的取值。
BEP度量过于简化，常用为 $F_{1}$ 度量：
$F_{1}=2\times P \times R/(P+R)=2\times TP/(样例总数+TP-TN)$
$F_{1}$ 的一般形式 $F_{\beta}$
$F_{\beta}=(1+\beta ^{2})\times P \times R/((\beta ^{2} \times P)+R)$
$\beta = 1$ 时退化为标准的 $F_{1}$ ； $\beta > 1$ 时查全率有更大影响； $\beta < 1$ 时差准率有更大的影响
附
在这里插入图片描述当有多个二分类混淆矩阵，可以在各混淆矩阵分别计算查准率和查全率，在计算平均值，得到宏查准率和宏查全率；也可以将各混淆矩阵对应元素进行平均，得到 $T P ， F P ， T N ， F N$ 的平均值，基于平均值计算出微查准率和微查全率。

13.ROC（受试者工作特征）与AUC（ROC曲线下面积）
ROC曲线纵轴是真正例率（TPR），横轴是假正例率(FPR)，两者分别定义为
$T P R = T P / (T P + F N)$
$F P R = F P / (T N + F P)$
进行学习器比较时，较为合理的依据是比较ROC曲线下的面积，即AUC（Area Under ROC Curve）。
假定ROC曲线是由坐标为{ $x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m})$ }的点按序连接而形成（ $x_{1}=0,x_{m}=1$ ）,AUC可以估算为
$AUC=1/2\sum_{i=1}^{m-1}(x_{i+1}-x_{i})\cdot (y_{i}+y_{i+1})$
损失定义见书

14.为权衡不同类型错误所造成的不同损失，可为错误赋予“非均等代价”，注意：重要的是代价比值而非绝对值。
在非均等代价下，ROC曲线不能直接反映出学习器的期望总体代价，而“代价曲线”可以达到这个目的。
横轴为取值为[0,1]的正例概率代价
$P(+)_{cost}=p \times cost_{01}/(p\times cost_{01}+(1-p)\times cost_{10})$
其中 $p$ 是样例为正例的概率，纵轴是取值为[0,1]的归一化代价
$cost_{norm}=(FNR\times p\times cost_{01}+FPR\times (1-p)\times cost_{10})/(p\times cost_{01}+(1-p)\times cost_{10})$
15.假设检验
假设检验中的“假设”是对学习器泛化错误率分布的某种判断或猜想
书中使用二项检验和双边 $t$ 检验，概率论有提及，较为简易不阐述。

16.交叉验证 $t$ 检验
基于 $k$ 折交叉验证分别得到测试错误率
基本思想：若是两个学习器的性能相同，则它们使用相同的训练/测试集得到的测试错误率应该相同，即 $\epsilon^{A}_{i}=\epsilon^{B}_{i}$ 。
先对每对结果求差， $\Delta_{i}=\epsilon^{A}_{i}-\epsilon^{B}_{i}$ ；若两个学习器性能相同，则差值均值应为零。可以根据差值 $\Delta_{1},\Delta_{2},...,\Delta_{k}$ 来对“学习器A与B的性能相同”这个假设做 $t$ 检验。
后续McNemar检验，Friedman检验以及Nemenyi后续检验均使用概率论知识，理解较易不阐述。

17.偏差-方差分解是解释学习算法泛化性能的重要工具
使用样本数相同的不同训练集产生的方差为
$var(x)=E_{D}[(f(x；D)-\overline{f}(x))^{2}]$
噪声为
$\epsilon^{2}=E_{D}[(y_{D}-y)^{2}]$
期望输出与真实标记的差别称为偏差（bias），即
$bias^{2}(x)=(\overline{f}(x)-y)^{2}$
其中 $y_{D}$ 为 $x$ 在数据集中的标记， $y$ 为 $x$ 的真实标记， $f (x ； D)$ 为训练集 $D$ 上学得模型 $f$ 在 $x$ 上的预测输出。
假定噪声期望为0，通过对算法的期望泛化误差分解得到
$E(f;D)=bias^{2}(x)+var(x)+\epsilon^{2}$
泛化误差可分解为偏差、方差与噪声之和。
偏差-方差窘境：偏差与方差有冲突。

课后习题答案

自己写的，如有错误，请不吝赐教
1.尽量采用分层采样保证训练集和测试集数据分布的一致性，依题意得
${500}\\{150}）^{2}$

2.10折交叉验证法为50%，因为交叉验证法需要分层采样。
留一法为100%，留一法不受随机样本划分方式的影响。

3.不一定。想象一下学习器A对样本输出值均为学习器B的两倍，两者BEP值是相同的，A的输出在（0,1）之间，而B的输出在（0,0.5）之间，此时B的 F1 值为0，A的 F1 值是在0-1之间。所以原命题不成立。

4.由它们的定义，得
TPR=R，其他的无必然联系

5.之后证

6.错误率是在阈值固定的情况下得出的，ROC曲线是在阈值随着样本预测值变化的情况下得出的。ROC曲线上的每一个点，都对应着一个错误率。

后面以后再更新

纵深

关注

6
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
周志华《机器学习》第二章读书笔记以及课后习题答案

读书笔记1.分类错误的样本数占样本总数的比例称为错误率，如果在m个样本中有a个样本分类错误，设错误率为E，精度为A，则E=a/m，A=(1−E)∗100%E = a/m，A=(1-E)*100\% E=a/m，A=(1−E)∗100%2.学习器的实际预测输出与样本的真实输出之间的差异称为“误差”，学习器在训练集上的误差称为“训练误差”或“经验误差”，在新样本上的误差称为“泛化误差”。3.过拟合和欠拟合当学习器把训练样本学习的“太好”了的时候，会导致泛化性下降，也就是面对新样本，效果不佳，这种现象
复制链接

扫一扫

专栏目录