模型选择与评估

最新推荐文章于 2024-03-19 17:30:00 发布

cooooove

最新推荐文章于 2024-03-19 17:30:00 发布

阅读量258

点赞数 1

分类专栏：机器学习文章标签：机器学习模型评估

本文链接：https://blog.csdn.net/qq_31652463/article/details/92846443

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、过拟合与欠拟合

（1）过拟合

定义：学习到了样本数据中不具有一般性的特征所导致的模型在测试集上泛化能力的下降

解决办法：过拟合无法避免，我们只能缓解

（2）欠拟合

定义：学习能力不足，没有学习到样本数据中的具有一般性的特征。

解决办法：调整学习步长，增加训练次数等。

2、数据集划分

（1）训练集、验证集、测试集

训练集：用来训练学习器参数的数据样本集合

验证集：是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估。

测试集：测试学习器对于新样本的判别能力。

这篇博客对于这三者的概念讲的很清楚

传送门

https://blog.csdn.net/Neleuska/article/details/73193096

https://blog.csdn.net/kieven2008/article/details/81582591

（2）数据集的划分方法

留出法

从中产生训练集和测试级。直接将D划分为两个互斥的集合。并且为了保持样本数据分布的一致性，采用分层抽样的方式进行数据集的划分。

交叉验证法

将D划分为k个互斥的数据子集，又根据不同的划分方式，k个子集又可以划分不同的训练集合测试集，重复P次。即为P次K折交叉验证。

常用的有10次10折交叉验证。

自助法

自助法比较适用于数据集较小，难以划分训练、测试集时很有用。

即每次从包含m个样本的数据集D中通过抽样放回的方式抽取样本产生数据集C，抽取m次。

最后D中的样本约有（1-0.368）出现在在集合C中，从而C集合构成训练集，D-C集合构成测试集。

3、模型度量

（1）错误率和精度

精度 = 分类正确样本数/总样本数

错误率 = 1 - 精度

（2）准确度、召回率和F1值

真实情况	预测结果
真实情况	正例	反例
正例	TP（真正例）	FN（假反例）
反例	FP（假正例）	TN（真反例）

（3）ROC与AUC

这篇博客将的很好：https://blog.csdn.net/u013063099/article/details/80964865

参考

周志华-《机器学习》

https://blog.csdn.net/u013063099/article/details/80964865

https://blog.csdn.net/Neleuska/article/details/73193096

https://blog.csdn.net/kieven2008/article/details/81582591

cooooove

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录