西瓜书——第一章第二章

RickeyOvO

已于 2022-06-19 21:25:23 修改

阅读量193

点赞数 1

文章标签：机器学习

于 2022-06-14 23:28:32 首次发布

本文链接：https://blog.csdn.net/m0_57448978/article/details/125288167

版权

本文介绍了机器学习的基本术语，如数据集、样本、属性空间等，并探讨了训练、测试集的划分方法，包括留出法、交叉验证法和自助法。重点讲解了模型的泛化能力和过拟合、欠拟合现象。此外，还讨论了模型评估指标，如错误率、精度以及查准率、查全率和F1度量。最后，提到了模型选择与参数调整的过程。

摘要由CSDN通过智能技术生成

第一章绪论

1.1基本术语

数据集：

这组记录的集合

示例/样本：

每条记录是关于一个事件或对象（这里是一个西瓜）的描述

属性空间/样本空间/输入空间——属性张成的空间

训练数据：

训练过程中使用的数据

训练集：

训练样本组成的集合

假设：

学得模型对应了关于数据的某种潜在的规律

真相：

这种潜在规律自身

标记空间/输出空间：

y是所有标记的集合

测试样本：

被预测的样本

聚类：

将训练集中的西瓜分成若干组，每组称为一个“簇”(cluster);这些自动形成的簇可能对应一些潜在的概念划分

泛化能力：

学得模型适用于新样本的能力

独立同分布：

假设样本空间中全体样本服从一个未知“分布 " 我们获得的每个样本都是独立地从这个分布上采样获得的

1.2假设空间

布尔概念学习

概念学习中最基本的，即对“是”“不是”这样的可表示为0/1布尔值得目标概念的学习。

归纳：

从特殊到一般的“泛化”(generalization)过程，即从具体的事实归结出一般性规律

演绎：

从基础原理推演出具体状况

版本空间：

可能有多个假设与训练集一致，即存在着一个与训练集一致的“假设集合”

第二章模型评估与选择

2.1 经验误差与过拟合

错误率：

分类错误的样本数占样本总数的比例

精度：

1-错误率

误差：

学习器的实际预测输出与样本的真实输出之间的差异

训练误差/经验误差：

在训练集上的误差

泛化误差：

在新样本上的误差

过拟合：

学习器把训练样本学得太好了，把一些训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降

欠拟合：

对训练样本的一般性质尚未学好

2.2评估方法

2.2.1留出法

将D划分成两个互斥的集合，在S上训练，用T估计泛化误差D=S⋃T,S⋂T=∅

Ps1：训练/测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响。

Ps2：即便在给定训练/测试集的样本比例后，仍存在多种划分方式对初始数据集D进行分割。

留出法使用建议：

单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时，一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果。

留出法弊端：

我们希望评估的是用。训练出的模型的性能，但留出法需划分训练/测试集，这就会导致一个窘境：若令训练集S 包含绝大多数样本，则训练出的模型可能更接近于用D 训练出的模型，但由于T 比较小，评估结果可能不够稳定准确；若令测试集T 多包含一些样本，则训练集S 与。差别更大了，被评估的模型与用D训练出的模型相比可能有较大差别，从而降低了评估结果的保真性。

2.2.2交叉验证法

先将数据集D 划分为 k 个大小相似的互斥子集，即

每个子集D i 都尽可能保持数据分布的一致性，即从。中通过分层采样得到.然后，每次用 k - 1 个子集的并集作为训练集，余下的那个子集作为测试集；这样就可获得k 组训练/测试集，从而可进行k 次训练和测试，最终返回的是这k 个测试结果的均值。通常把交叉验证法称为“k 折交叉验证”(k-fold cross validation), k 最常用的取值是10 ,此时称为10 折交叉验证；其他常用的k值有 5、20 等。