模型评估

最新推荐文章于 2022-09-18 10:26:03 发布

quick刀斩乱麻

最新推荐文章于 2022-09-18 10:26:03 发布

阅读量113

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_34276652/article/details/109618033

版权

10 篇文章 0 订阅

订阅专栏

交叉验证用于评估模型的预测性能，防止模型过于复杂而引起的过拟合。该方法将原始数据进行分组，一部分做为训练集来训练模型，另一部分做为验证集集来评价模型。

留出法(hold-out):
- 将数据集划分为两个互斥的集合，其中一个作为训练集，另一个作为测试集。
- 分层采样(stratified sampling): 保留类别比例的采样方式。
k折交叉验证法：
- 留出法只做一次分割，它对训练集、验证集和测试集的样本数比例，还有分割后数据的分布是否和原始数据集的分布相同等因素比较敏感，不同的划分会得到不同的最优模型，而且分成三个集合后，用于训练的数据更少了。
- 将数据集划分为k个大小相似的互斥子集(分层采样)，每次用k-1个子集的并集作为训练集，余下的一个子集作为测试集；由此获得k组训练/测试集，并进行k次训练和测试。
- 当k等于样本总数时，即是留一法(leave-one-out)，，每次的测试集都只有一个样本，这个方法用于训练的数据只比整体数据集少了一个样本，因此最接近原始样本的分布；但是训练复杂度增加了，一般在数据缺乏时使用。
自助法(bootstrapping)：
- 即在数据集中，对样本进行有放回的抽样，组成了新的数据集作为训练集。
- pros: 数据集小，难以有效划分训练/测试集，集成学习时可用。
- cons: 会有重复多次的样本从而改变了初始数据集的分布，会引入估计偏差，因此在初始数据量足够时，留出法和交叉验证法更常用。

回归

分类

聚类

1.外部评价标准：

2.内部评价标准：

关注