sklearn机器学习（一）绘制学习曲线

最新推荐文章于 2022-10-04 16:27:55 发布

永远的小白虾

最新推荐文章于 2022-10-04 16:27:55 发布

阅读量6.9k

点赞数 4

分类专栏：机器学习文章标签： sklearn 机器学习 python 算法分析人工智能

本文链接：https://blog.csdn.net/qq_41487299/article/details/90596990

版权

机器学习专栏收录该内容

8 篇文章 5 订阅

订阅专栏

今天开始学习scikit—learn机器学习的书上面的。
这是通过三个不同的多项式，一阶多项式，三阶多项式，十阶多项式来比较出机器学习中欠拟合，正常，过拟合的三种状态。个人学习记录
以下是生成数据部分

import matplotlib.pyplot as plt
import numpy as np
n_dots=200
#下面两行就是在生成数据集
X=np.linspace(0,1,n_dots)#从0到1之间生成两百个数。
y=np.sqrt(X)+0.2*np.random.rand(n_dots)-0.1;
#下面两行就是n_sample * n_feature的矩阵，将其特征固定为1，其中-1的意思就是全部
X=X.reshape(-1,1)
y=y.reshape(-1,1)

以下是生成多项式模型生成部分

ffrom sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

def polynomial_model(degree=1):#degrees代表的是多项式阶数
    polynomial_features=PolynomialFeatures(degree=degree,include_bias=False)#模型生成，没有偏差
    linear_regression=LinearRegression()#线性回归算法
    pipeline=Pipeline([("polynomial_features",polynomial_features),("linear_regression",linear_regression)])
    #流水线生产多项式模型，之后使用线性回归拟合数据
    return pipeline

以下是学习曲线的绘制
是随机从数据集中分配出训练样本和交叉验证样本，这样会导致数据分布不均匀。
同样训练样本数量的模型，由于随机分配，导致每次计算出来的准确性都不一样。
我们在计算模型的准确性是多次计算，并求准确性的平均值和方差。

from sklearn.model_selection import learning_curve
from sklearn.model_selection import ShuffleSplit

def plot_learning_curve(estimator,title,X,y,ylim=None,cv=None,n_jobs=1,train_sizes=np.linspace(0.1,1.0,5)):
    plt.title(title)#图像标题
    if ylim is not None:#y轴限制不为空时
        plt.ylim(*ylim)
    plt.xlabel("Training examples")#两个标题
    plt.ylabel("Score")
    train_sizes,train_scores,test_scores=learning_curve(estimator,X,y,cv=cv,n_jobs=n_jobs,train_sizes=train_sizes)#获取训练集大小，训练得分集合，测试得分集合
    train_scores_mean=np.mean(train_scores,axis=1)#将训练得分集合按行的到平均值
    train_scores_std=np.std(train_scores,axis=1)#计算训练矩阵的标准方差
    test_scores_mean=np.mean(test_scores,axis=1)
    test_scores_std=np.std(test_scores,axis=1)
    plt.grid()#背景设置为网格线
    
    plt.fill_between(train_sizes,train_scores_mean-train_scores_std,train_scores_mean+train_scores_std,alpha=0.1,color='r')
    # plt.fill_between()函数会把模型准确性的平均值的上下方差的空间里用颜色填充。
    plt.fill_between(train_sizes,test_scores_mean-test_scores_std,test_scores_mean+test_scores_std,alpha=0.1,color='g')
    plt.plot(train_sizes,train_scores_mean,'o-',color='r',label='Training score')
    # 然后用plt.plot()函数画出模型准确性的平均值
    plt.plot(train_sizes,test_scores_mean,'o-',color='g',label='Cross_validation score')
    plt.legend(loc='best')#显示图例
    return plt

以下是模型的测试

cv = ShuffleSplit(n_splits=10, test_size=0.2, random_state=0)
#交叉验证类进行十次迭代，测试集占0.2，其余的都是训练集
titles = ['Learning Curves(Under Fitting)', 'Learning Curves', 'Learning Curves(Over Fitting)']
degrees = [1, 3, 10]#多项式的阶数
plt.figure(figsize=(18, 4), dpi=200)#设置画布大小，dpi是每英寸的像素点数
for i in range(len(degrees)):#循环三次
    plt.subplot(1, 3, i + 1)#下属三张画布，对应编号为i+1
    plot_learning_curve(polynomial_model(degrees[i]), titles[i], X, y, ylim=(0.75, 1.01), cv=cv)#开始绘制曲线

plt.show()#显示

最后的输出
在这里插入图片描述