数据挖掘：模型状态评估

最新推荐文章于 2024-01-09 01:19:12 发布

AvenueCyy

最新推荐文章于 2024-01-09 01:19:12 发布

阅读量1.1k

点赞数 3

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AvenueCyy/article/details/104572784

版权

本文探讨了数据挖掘中模型状态的评估，包括过拟合和欠拟合的概念。模型状态分为过拟合（训练集效果好，测试集效果差）和欠拟合（训练集和测试集效果都不佳）。偏差表示模型预测与真实结果的偏离，方差则衡量模型在不同数据集上的变化。学习曲线用于展示随着样本量增加，模型的偏差和方差变化，帮助我们平衡模型的准确性和稳定性。过拟合表现为低偏差高方差，欠拟合则为高偏差低方差。学习曲线能揭示模型是否需要更多数据或者更复杂的结构。

摘要由CSDN通过智能技术生成

数据挖掘：模型状态评估

之前的模型评估仅仅是在评估模型的预测精度怎么样，没有考虑模型过拟合和欠拟合的状态。也就是说，模型拟合出来后，我们要对它进行优化，而如何优化就要看模型目前所处的一个状态，过拟合，欠拟合等。有针对的对模型进行优化。

一、模型状态

模型的状态可分为两类：

过拟合：模型在训练集上的效果好，在测试集上的效果差。
欠拟合：模型在训练集和测试集上的效果都不好。

在这里插入图片描述

而这个效果就是模型评估中的准确度。从准确度的反面，就是误差过大。
误差：学习器的预测输出与样本的真实输出之间的差异
根据数据集的划分，又有如下的定义：

训练误差(training error)：又称为经验误差(empirical error)，学习器在训练集上的误差。
测试误差(test error)：学习器在测试集上的误差。
泛化误差(generalization error)：学习器在未知新样本上的误差。

训练模型的意义：得到泛化误差小的学习器。然而，事先并不知道新样本，实际能做的是努力使经验误差最小化。但需要明确一点，即使分类错误率为 0，精度为 100% 的学习器，也不一定能够在新样本上取得好的预测结果。我们实际希望的是在新样本

最低0.47元/天解锁文章

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。