sklearn(十)：validation curve 和 learning curve

Sarah ฅʕ•̫͡•ʔฅ

已于 2022-05-24 18:20:32 修改

阅读量719

点赞数

分类专栏： Sklearn 文章标签： sklearn python 机器学习

于 2018-09-29 20:23:02 首次发布

本文链接：https://blog.csdn.net/u014765410/article/details/82902252

版权

Sklearn 专栏收录该内容

27 篇文章 4 订阅

订阅专栏

validation curve

>>> import numpy as np
>>> from sklearn.model_selection import validation_curve
>>> from sklearn.datasets import load_iris
>>> from sklearn.linear_model import Ridge

>>> np.random.seed(0)
>>> iris = load_iris()
>>> X, y = iris.data, iris.target
>>> indices = np.arange(y.shape[0])
>>> np.random.shuffle(indices)
>>> X, y = X[indices], y[indices]

>>> train_scores, valid_scores = validation_curve(Ridge(), X, y, "alpha",
...                                               np.logspace(-7, 3, 3),
...                                               cv=5)
>>> train_scores            
array([[0.93..., 0.94..., 0.92..., 0.91..., 0.92...],
       [0.93..., 0.94..., 0.92..., 0.91..., 0.92...],
       [0.51..., 0.52..., 0.49..., 0.47..., 0.49...]])
>>> valid_scores           
array([[0.90..., 0.84..., 0.94..., 0.96..., 0.93...],
       [0.90..., 0.84..., 0.94..., 0.96..., 0.93...],
       [0.46..., 0.25..., 0.50..., 0.49..., 0.52...]])

在validation curve中，如果training score和validation score都很低，则说明为underfitting，如果training score很高，而validation score很低，则说明为overfitting。

learning curve

>>> from sklearn.model_selection import learning_curve
>>> from sklearn.svm import SVC

>>> train_sizes, train_scores, valid_scores = learning_curve(
...     SVC(kernel='linear'), X, y, train_sizes=[50, 80, 110], cv=5)
>>> train_sizes            
array([ 50, 80, 110])
>>> train_scores           
array([[0.98..., 0.98 , 0.98..., 0.98..., 0.98...],
       [0.98..., 1.   , 0.98..., 0.98..., 0.98...],
       [0.98..., 1.   , 0.98..., 0.98..., 0.99...]])
>>> valid_scores           
array([[1. ,  0.93...,  1. ,  1. ,  0.96...],
       [1. ,  0.96...,  1. ,  1. ,  0.96...],
       [1. ,  0.96...,  1. ,  1. ,  0.96...]])

上述两幅图，如果training score和validation score随着number of sample 的增加，二者在score较低的地方相遇，则说明即便在增加sample，也无法提升模型泛化的能力；
相反，如果随着number of sample的增加，二者在较高的score处相遇，且此时training score > validation score，说明增加sample可以提升模型的泛化能力；