《机器学习》学习笔记（第1-2章）【西瓜籽队-松泽】

最新推荐文章于 2022-05-17 21:41:38 发布

SongzeLiCEMA

最新推荐文章于 2022-05-17 21:41:38 发布

阅读量89

点赞数

本文链接：https://blog.csdn.net/qq_42953341/article/details/119769693

版权

《机器学习》学习笔记（第1-2章）

参考：Datawhale 吃瓜教程（https://www.bilibili.com/video/BV1Mh411e7VU）

机器学习研究在计算机上从数据中产生“模型”的算法，基于学习所得的模型可以对新数据进行预测。从科学推理的视角来看，机器学习视为一个从样例中进行归纳的过程，即“归纳学习”。

可以把布尔概念学习的过程看做一个在假设空间搜索与训练集相匹配的假设的过程。可能有多个假设与训练集一致，这些假设构成的集合被称为版本空间。一个具体且有效的机器学习算法需要从版本空间中确定一个满足归纳偏好的模型。奥卡姆剃刀原则常被用于引导算法确立归纳偏好。

过拟合是机器学习面临的关键障碍，它是指经验误差很小的学习器可能产生较大的泛化误差。

可通过实验测试来对学习器的泛化误差进行评估并选择。为此，需使用一个测试集来测试学习器对新样本的判别能力，以测试误差来作为泛化误差的近似。

给定数据集 $D$ ，可以通过如下几种方法产生训练集 $S$ 和测试集 $T$ ：

留出法。直接将数据集划分为两个互斥的集合，一个作为测试集，一个作为训练集。
交叉验证法。将数据集划分为 $k$ 个大小相似的互斥子集，每次用 $k - 1$ 个子集的并集作为测试集，余下的子集作为训练集。该方法将进行 $k$ 次训练和测试，最终返回 $k$ 个测试结果的均值。当 $k = 1$ 时，该方法又称为留一法。
自助法。给定包含 $m$ 个样本的数据集 $D$ ，进行 $m$ 次有放回的采样产生数据集 $D^{\prime}$ ，然后将 $D^{\prime}$ 作为训练集、将 $D\setminus D^{\prime}$ 作为测试集。该方法适用于数据集较小，难以有效划分测试集\训练集时使用。

性能度量是衡量模型泛化能力的评价标准，即把学习器预测结果 $f (x)$ 与真实标记 $y$ 进行比较。回归任务最常用的性能度量是均方误差，分类任务较常用的性能度量为ROC与AUC。

统计假设检验为学习器的性能比较提供了重要的依据。最基本的检验是在一个数据集上比较两个算法的性能，可采用交叉验证 $t$ 检验（对应于交叉验证法）或McNemar检验（对应于留出法）。若需要在一组数据上对多个算法进行比较，则可以采用Friedman检验和Nemenyi后续检验。

关注