1、过拟合与欠拟合
(1)过拟合
定义:学习到了样本数据中不具有一般性的特征所导致的模型在测试集上泛化能力的下降
解决办法:过拟合无法避免,我们只能缓解
(2)欠拟合
定义:学习能力不足,没有学习到样本数据中的具有一般性的特征。
解决办法:调整学习步长,增加训练次数等。
2、数据集划分
(1)训练集、验证集、测试集
训练集:用来训练学习器参数的数据样本集合
验证集:是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。
测试集:测试学习器对于新样本的判别能力。
这篇博客对于这三者的概念讲的很清楚
传送门
https://blog.csdn.net/Neleuska/article/details/73193096
https://blog.csdn.net/kieven2008/article/details/81582591
(2)数据集的划分方法
-
留出法
从中产生训练集和测试级。直接将D划分为两个互斥的集合。并且为了保持样本数据分布的一致性,采用分层抽样的方式进行数据集的划分。
-
交叉验证法
将D划分为k个互斥的数据子集,又根据不同的划分方式,k个子集又可以划分不同的训练集合测试集,重复P次。即为P次K折交叉验证。
常用的有10次10折交叉验证。
-
自助法
自助法比较适用于数据集较小,难以划分训练、测试集时很有用。
即每次从包含m个样本的数据集D中通过抽样放回的方式抽取样本产生数据集C,抽取m次。
最后D中的样本约有(1-0.368)出现在在集合C中,从而C集合构成训练集,D-C集合构成测试集。
3、模型度量
(1)错误率和精度
精度 = 分类正确样本数/总样本数
错误率 = 1 - 精度
(2)准确度、召回率和F1值
真实情况 | 预测结果 | |
正例 | 反例 | |
正例 | TP(真正例) | FN(假反例) |
反例 | FP(假正例) | TN(真反例) |
(3)ROC与AUC
这篇博客将的很好:https://blog.csdn.net/u013063099/article/details/80964865
参考
周志华-《机器学习》
https://blog.csdn.net/u013063099/article/details/80964865