模型评估与选择

最新推荐文章于 2024-04-15 23:56:02 发布

combatants19

最新推荐文章于 2024-04-15 23:56:02 发布

阅读量5.8k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/u014665416/article/details/51770639

版权

评估方法

留出法：直接将数据集D划分为两个互斥的集合，其中一个是训练集S，另一个是测试机（准确说是验证集）T。训练集和验证集的划分要尽可能保持数据分布一致。常用作法将数据集的2/3 ~ 4/5用作训练集，其余的用作验证集。由于存在很多种把数据集进行划分的方法，所以，通常进行多次数据集的划分。最后返回多次划分集合结果的平均值。例如进行了100次集合数据的划分，则求100次结果的平均值。
交叉验证法（cross validation）：将数据集D分成k个子集，互相独立，保证每个子集的数据分布一致。之后，每次使用K-1个子集合并作为训练集，剩下的一个子集作为验证集，这样可以得到k个训练集/验证集。从而进行k次训练和测试。最终返回k个测试结果的平均值。通常k为10，成为10折交叉验证。k也可以取5，20等。同样，对数据集进行k次划分有很多种方法，通常进行p次k折交叉验证，最后求均值。最常见的为10次10折交叉验证。当k=m（数据条数）时，叫做留一法。这样结果效果好，但计算量太大。
自助法（bootstrapping）：无论是留出法还是交叉验证法，都要留出一部分作为验证数据，不能把所有数据用作训练，从而降低了训练集数据规模。自助法可以避免此种情况发生。给定m个样本的数据集D，我们对它进行采样产生数据集D’：每次随机从D中挑选一个样本，将其拷贝到D’中，然后将样本放回到D中，从复m次。通过自助法，D中36.8%的样本未出现在D’中。我们将D’当做训练集，D\D’当做验证集。自助法在数据集较小，难以有效划分时很有用。自助法产生的数据集改变了初始数据集的分布，会引入偏差。因此，在初始数据集足够时，留出法和交叉验证法更常用一些。
调参及最终模型：在模型选择完成后，学习算法和参数配置已选定，此时应用数据集D重新训练模型，将结果作为最终结果。

性能度量

衡量模型泛化能力的标准，包括错误率与精度、查准率，查全率和F1、ROC和AUC、代价敏感错误率与代价曲线。
错误率：分错样本占全体样本的比例。精度：1-错误率。

最低0.47元/天解锁文章

combatants19

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
模型评估与选择

评估方法留出法：直接将数据集D划分为两个互斥的集合，其中一个是训练集S，另一个是测试机（准确说是验证集）T。训练集和验证集的划分要尽可能保持数据分布一致。常用作法将数据集的2/3 ~ 4/5用作训练集，其余的用作验证集。由于存在很多种把数据集进行划分的方法，所以，通常进行多次数据集的划分。最后返回多次划分集合结果的平均值。例如进行了100次集合数据的划分，则求100次结果的平均值。交叉
复制链接

扫一扫