使用学习曲线(Learning curve)，判断机器学习模型过拟合、欠拟合，与解决过拟合、欠拟合的问题

呆萌的代Ma

已于 2022-04-06 15:34:32 修改

阅读量9.3k

点赞数 8

分类专栏：机器学习文章标签：机器学习

于 2022-04-03 15:20:22 首次发布

本文为CSDN博主"呆萌的代Ma"原创文章，转载请注明博客链接：https://blog.csdn.net/weixin_35757704/

本文链接：https://blog.csdn.net/weixin_35757704/article/details/123931046

版权

机器学习专栏收录该内容

36 篇文章

订阅专栏

本文介绍了过拟合和欠拟合的概念，通过学习曲线进行识别，并提供了绘制学习曲线的代码示例。解决过拟合的方法包括正则化、早停等，而欠拟合可通过增加模型复杂度或数据量来改善。关键在于平衡模型的偏差与方差，以达到理想的预测效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.基本概念

过拟合与欠拟合

过拟合（学成书呆子了）：指模型在训练集上表现优秀，在测试集上表现很差
欠拟合（还没学明白）：指模型难以学习已有的规律，在训练集和测试集上表现得都很差；或是模型过早的停止训练

根据学习曲线判断过拟合、欠拟合

在实际的使用过程中，过拟合、欠拟合是一个较为主观的评价，没有一个指标能拍板说它就是过拟合了、或就是欠拟合了。而且，过拟合与欠拟合实际上并不是相对的概念，即并未非此即彼，往往：

模型效果太差：欠拟合
模型在训练集上还可以，但测试集上太差：过拟合
模型训练集和测试集都还行：不存在过拟合与欠拟合

下面是一个例子：
在这里插入图片描述
上图是一个比较经典的示意图：

左上角：我们看到随着训练数据的增加（随着x不断增加），准确率趋于稳定，意味着：再添加更多数据，已经无法使模型更好了，说明模型已经到极限了，这就是正常的。但是此时模型的准确率也太低了，如果我们的预期是红色的线，说明模型已经尽力了，也无法达到我们的预测，此时它就是欠拟合的。
右上角：我们看到训练的曲线与验证的曲线相差加大（两条线离的有点远），即：在训练集上效果还行（绿色虚线比较高），但验证集上效果不行（蓝色实线），此时为过拟合
右下角：完美，既不存在过拟合也不存在欠拟合

2.示例代码：绘制学习曲线

import numpy as np
import matplotlib.pyplot as plt
from sklearn.svm import SVC
from sklearn.model_selection import learning_curve
import seaborn as sns
from sklearn.datasets import make_classification


def main():
    data_x, data_y = make_classification(n_samples=1000, n_classes=4, n_features=10, n_informative=8)  # 生成分类任务
    # 绘制学习曲线
    model = SVC(kernel="linear")
    train_sizes, train_scores, valid_scores = learning_curve(
        model, data_x, data_y, train_sizes=np.linspace(0.1, 1.0, 10), cv=5, random_state=0)
    train_scores_mean = np.mean(train_scores, axis=1)  # 纵向求平均
    valid_scores_mean = np.mean(valid_scores, axis=1)
    # 开始绘图
    sns.set()
    sns.lineplot(x=train_sizes, y=train_scores_mean, label="train")
    sns.lineplot(x=train_sizes, y=valid_scores_mean, label="valid")
    plt.xlabel("data")
    plt.ylabel("acc")
    plt.title("SVM linear")
    plt.show()


if __name__ == '__main__':
    main()