机器学习Day2

最新推荐文章于 2025-04-09 14:47:01 发布

原创最新推荐文章于 2025-04-09 14:47:01 发布

· 1.2k 阅读

19 ·

版权

文章标签：

#机器学习 #人工智能

机器学习专栏收录该内容

2 篇文章

订阅专栏

一、泛化能力

泛化能力指的是训练得到的模型对未知数据的预测能力。我们建模的目的是让模型不仅对已知数据，而且对未知数据都能有较好的预测能力。对模型预测能力的评估，可以通过样本上的训练误差和测试误差来估计。这里有三个概念：

损失函数：度量预测错误程度的函数
训练误差：训练数据集上的平均损失，虽然有意义，但本质不重要
测试误差：测试数据集上的平均损失，反应了模型对未知数据的预测能力

我们通常利用最小化训练误差的原则来训练模型，但真正值得关心的是测试误差。一般情况下我们通过测试误差来近似估计模型的泛化能力。对于一个好的模型，其训练误差约等于泛化误差。

二、过拟合和欠拟合

1、基本概念

当机器学习模型对训练集学习的太好的时候，此时表现为训练误差很小，而泛化误差会很大，这种情况我们称之为过拟合，而当模型在数据集上学习的不够好的时候，此时训练误差较大，这种情况我们称之为欠拟合。

2、过拟合产生原因

过拟合产生的原因主要有三个：

模型记住了数据中的噪音 意味着模型受到噪音的干扰，导致拟合的函数形状与实际总体的数据分布相差甚远。这里的噪音可以是标记错误的样本，也可以是少量明显偏离总体分布的样本（异常点）。通过清洗样本或异常值处理可以帮助缓解这个问题。

训练数据过少 导致训练的数据集根本无法代表整体的数据情况，做什么也是徒劳的。需要想方设法增加数据，包括人工合成假样本。

模型复杂度过高 导致模型对训练数据学习过度，记住了过于细节的特征，如下图（来源Coursera的机器学习课程）。

3、欠拟合产生原因

欠拟合产生的原因主要有两个：

模型过于简单 即模型形式太简单，以致于无法捕捉到数据特征，无法很好的拟合数据，如下图。在模型后加入一个二次项，拟合能力就提升了许多。

缺乏强预测能力的特征 很容易懂，可以通过组合、泛化等各种手段增加特征。

三、混淆矩阵

TP: TRUE POSITIVE 分类器将正类预测为正类的数量
FN: FALSE NEGATIVE 分类器将正类预测为负类的数量
FP: FALSE POSITIVE 分类器将负类预测为正类的数量
TN: TRUE NEGATIVE 分类器将负类预测为负类的数量

查准率： Precision = TP/(TP+FP)，即所有被预测为正例的样本中，多少比例是真的正例。

查全率： Recall = TP/(TP+FN)，即所有真的正例中，多少比例被模型预测出来了。

F1 Score：精确率和召回率的调和平均。F1认为两者同等重要。

F-beta Score：F1 更一般的形式。

其中 Beta 度量了查全率对查准率的相对重要性。Beta大于1时，召回率更重要，在0-1之间时，精确率更重要。常用的Beta值有 2 和 0.5。

四、模型选择方法

留出法 Hold-out
K 折交叉验证法 k-fold cross validation
留一法 Leave-One-Out cross-validation
分层 K 折交叉验证法 Stratified k-fold cross validation
自助法 bootstrapping

1.留出法

留出法(Hold-out)是最经典也是最简单的评估模型泛化能力的方式。最简单的来讲，我们把数据集分为训练集和测试集两部分，前者用来训练模型，后者用来评估模型的泛化能力。大多数情况下我们需要做参数调优以进一步的提升模型表现（即模型选择步骤），例如调节决策树模型中树的最大深度。

一般情况下，我们根据模型在测试集上的表现进行参数调优，但如果我们一直用同一份测试集作为参考来调优，最后的结果很可能使得模型过拟合于这份测试集。因此，更好的做法是将数据集切分为三个互斥的部分——训练集、验证集与测试集，然后在训练集上训练模型，在验证集上选择模型，最后用测试集上的误差作为泛化误差的估计。我们可以在验证集上反复尝试不同的参数组合，当找到一组满意的参数后，最后在测试集上估计模型的泛化能力。整个过程如下图：

三部分划分比例，通常取 60%：20%：20%（或者两部分划分比例70%：30%）。如果训练集的比例过小，则得到的模型很可能和全量数据得到的模型差别很大；训练集比例过大，则测试的结果可信度降低。
数据集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响。若训练集、验证集、测试集中各个类别比例差别很大，则误差估计将由于训练/验证/测试数据分布的差异而产生偏差。
单次留出法得出的估计结果往往不够稳定可靠，通常会进行多次留出法，每次随机划分数据集，将多次得到的结果平均。