简单易懂的人工智能系列：模型选择与评估

最新推荐文章于 2024-08-25 16:00:00 发布

薛定谔的猫96

最新推荐文章于 2024-08-25 16:00:00 发布

阅读量1.7k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/qq_42415326/article/details/104767332

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

机器学习过程中需要从假设空间中（众多模型中）选择最优的假设（最优模型）。那么再模型选择过程中（学习过程）必不可少一些选择标准和评估方法，本文就来捋一捋。

模型相关概念

各种误差

误差（Error）：是模型的预测输出值与其真实值之间的差异，与错误（mistake）（错误是指由于不遵守测量仪器的使用规则,或读取、记录测量结果时粗心等原因造成的。）不同。

训练（Training）：通过已知的样本数据进行学习，从而得到模型的过程。

训练误差（Training Error）：模型作用于训练集时的误差。

泛化（Generalize）：由具体的、个别的扩大为一般的，即从特殊到一般的，称为泛化。对机器学习的的模型来讲，泛化是指模型作用于新的样本数据（非训练集）。

泛化误差（Generalize Error）：模型作用于全局样本数据时的误差。

各个概念之间的关系大致如下：

欠拟合和过拟合

模型容量（Model Capacity）：是指其拟合各种模型的能力。

过拟合（Overfitting）：是某个模型在训练集上表现的很好，但是到新样本熵表现差。模型将训练集的特征学习的太好，导致一些非普遍规律被模型接纳和体现，从而在训练集上表现好但是对于新样本的表现差。反之则称为欠拟合（Underfitting），即模型对训练集的一般性质学习较差，模型作用于训练集时表现不好。

对于同一个训练数据集，下面分别展示了欠拟合，适拟合，过拟合的情况（模型复杂度不断增大，过拟合的模型，学习到了训练数据特有的全局数据却没有的特征）

模型选择

模型选择（Model Selection）：针对某个具体的任务，通常会有多种模型（假设空间）可供选择，对同一个模型也会有多组参数，通过分析、评估模型的泛化误差，选择泛化误差最小的模型。

蓝色虚线是模型的训练误差，随着模型容量的增大，不断减小。

绿色实线是模型的泛化误差，随着模型容量先下降后增大。红线为合适区域，两侧分别为欠拟合和过拟合区域。

模型评估思路

通过实验测试，对模型的泛化误差进行评估，选出泛化误差最小的模型。待测数据集全集未知，使用测试集进行泛化测试，测试误差（Testing Errror）即为泛化误差的近似。

测试集和训练集应该满足的条件：

数据集划分方法

留出法（Hold-out）

留出法（Hold-out）：将已知的数据集分成两个互斥的部分，其中一部分用来训练模型；另一部分用来测试模型，评估其误差，作为泛化误差的估计。

两个数据集的的划分尽可能保证数据分布的一致性，避免因为数据划分过程引入认为的偏差

比如下图的总数据集（男女比例）应该和测试集、训练集（男女比例）相近：

为此（保持类别比例相似），采用分层采样（Stratified Sampleing）

数据分割存在多种形式会导致不同的训练集、测试集划分，单次留出法结果往往存在偶然性，其稳定性比较差，通常会进行若干次随机划分，重复试验评估区平均值作为评估结果。
数据集拆成两部分，每部分的规模设置会影响评估结果，测试、训练的比例通常为7：3、8：2等。

适用场景：

交叉验证法（Cross Validation）

交叉验证法（Cross Validation）：将数据集划分 k 个大小相似的互斥的数据子集，子集数据尽可能保证数据分布的一致性（分层采样），每次从中选取一个数据集作为测试集，其余用作训练集，可以进行k次训练和测试，得到评估均值。该验证方法也称作 k 折交叉验证（k-fold Cross Validation）。使用不同的划分，重复 p 次，称为 p 次 k 折交叉验证