本文结构:
- 学习曲线是什么?
- 怎么解读?
- 怎么画?
学习曲线是什么?
学习曲线就是通过画出不同训练集大小时训练集和交叉验证的准确率,可以看到模型在新数据上的表现,进而来判断模型是否方差偏高或偏差过高,以及增大训练集是否可以减小过拟合。
怎么解读?

当训练集和测试集的误差收敛但却很高时,为高偏差。
左上角的偏差很高,训练集和验证集的准确率都很低,很可能是欠拟合。
我们可以增加模型参数,比如,构建更多的特征,减小正则项。
此时通过增加数据量是不起作用的。
当训练集和测试集的误差之间有大的差距时,为高方差。
当训练集的准确率比其他独立数据集上的测试结果的准确率要高时,一般都是过拟合。
右上角方差很高,训练集和验证集的准确率相差太多,应该是过拟合。
我们可以增大训练集,降低模型复杂度,增大正则项,或者通过特征选择减少特征数。
理想情况是是找到偏差和方差都很小的情况,即收敛且误差较小。
怎么画?
在画学习曲线时,横轴为训练样本的数量,纵轴为准确率。

学习曲线通过绘制不同训练集大小下模型的训练和验证准确率,揭示模型的方差和偏差。高偏差(左上)可能表示欠拟合,需要增强模型复杂度;高方差(右上)则表明过拟合,可通过增大训练集或降低模型复杂度解决。理想的曲线应是两者误差小并收敛。文章以naive Bayes和SVM为例,展示了如何绘制和解读学习曲线。
最低0.47元/天 解锁文章
888

被折叠的 条评论
为什么被折叠?



