1.定义:
我们可以把{J}{train}(\theta)和{J}{cv}(\theta)作为纵坐标,画出与训练数据集m的大小关系,这就是学习曲线。通过学习曲线,可以直观地观察到模型的准确性与训练数据集大小的关系。
2.函数的调用格式:
from sklearn.model_selection import learning_curve
learning_curve(estimator, X, y, train_sizes=array([ 0.1 , 0.325, 0.55 , 0.775, 1. ]), cv=None, scoring=None, exploit_incremental_learning=False, n_jobs=1, pre_dispatch='all', verbose=0)
3.函数的作用:对于不同大小的训练集,确定交叉验证训练和测试的分数。一个交叉验证发生器将整个数据集分割k次,分割成训练集和测试集。不同大小的训练集的子集将会被用来训练评估器并且对于每一个大小的训练子集都会产生一个分数,然后测试集的分数也会计算。然后,对于每一个训练子集,运行k次之后的所有这些分数将会被平均。
4.参数详解:
estimator:所使用的分类器
X官方解释:array-like, shape (n_samples, n_features)
训练向量,n_samples是样本的数量,n_features是特征的数量
y官方解释:array