8-8 模型泛化与岭回归

最新推荐文章于 2022-11-14 14:13:55 发布

Bonjour_Yvonne

最新推荐文章于 2022-11-14 14:13:55 发布

阅读量115

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Bonjour_h/article/details/117256322

版权

机器学习专栏收录该内容

36 篇文章 1 订阅

订阅专栏

在这里插入图片描述

岭回归

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(42)
x = np.random.uniform(-3.0,3.0,size=100)
X = x.reshape(-1,1)
y = 0.5 * x + 3 + np.random.normal(0,1,size=100)

plt.scatter(x,y)
plt.show()

输出图片：
在这里插入图片描述

使用多项式回归做对比

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression


def PolynomialRegression(degree):
    return Pipeline([
        ("poly",PolynomialFeatures(degree=degree)),
        ("std_scaler",StandardScaler()),
        ("lin_reg",LinearRegression())
    ])

from sklearn.model_selection import train_test_split
np.random.seed(666)
X_train,X_test,y_train,y_test = train_test_split(X,y)

from sklearn.metrics import mean_squared_error

poly_reg = PolynomialRegression(degree=20)
poly_reg.fit(X_train,y_train)

y_poly_predict = poly_reg.predict(X_test)
mean_squared_error(y_test,y_poly_predict)

输出：167.9401085999025
此处得到的值过大，表示模型过拟合

X_plot = np.linspace(-3,3,100).reshape(100,1)
y_plot = poly_reg.predict(X_plot)

plt.scatter(x,y)
plt.plot(X_plot[:,0],y_plot,color='r')
plt.axis([-3,3,0,6])
plt.show()

输出图片：
在这里插入图片描述
将绘图的方法简单的进行包装

# 将绘图的方法简单的进行包装
def plot_model(model):
    X_plot = np.linspace(-3,3,100).reshape(100,1)
    y_plot = model.predict(X_plot)
    
    plt.scatter(x,y)
    plt.plot(X_plot[:,0],y_plot,color='r')
    plt.axis([-3,3,0,6])
    plt.show()

plot_model(poly_reg)

使用岭回归

alpha=0.001时

from sklearn.linear_model import Ridge

def RidgeRegression(degree,alpha):
    return Pipeline([
        ("poly",PolynomialFeatures(degree=degree)),
        ("std_scaler",StandardScaler()),
        ("ridge_reg",Ridge(alpha=alpha))
    ])

ridge1_reg = RidgeRegression(20,0.0001)
ridge1_reg.fit(X_train,y_train)

y1_predict = ridge1_reg.predict(X_test)
mean_squared_error(y_test,y1_predict)#得到的值远小于之前多项式回归得到的167.9

得到的数据远小于用多项式回归得到的167.9
输出：1.3233492754136291

# 利用上文简单包装的方法查看利用岭回归得到的曲线
plot_model(ridge1_reg)

输出图片：
在这里插入图片描述

修改alpha的值，得到不同的模型
alpha=1时

ridge2_reg = RidgeRegression(20,1)
ridge2_reg.fit(X_train,y_train)

y2_predict = ridge2_reg.predict(X_test)
mean_squared_error(y_test,y2_predict)

输出结果：1.1888759304218461

plot_model(ridge2_reg)

在这里插入图片描述
再次修改alpha的值
alpha=100时

ridge3_reg = RidgeRegression(20,100)
ridge3_reg.fit(X_train,y_train)

y3_predict = ridge3_reg.predict(X_test)
mean_squared_error(y_test,y3_predict)

得到的结果大于alpha=1时的结果，说明可能出现了过拟合的现象
输出结果：1.3196456113086197

plot_model(ridge3_reg)

输出图片：
在这里插入图片描述
alpha=一个很大的数的时候

# 当alpha非常大的时候，本质就是让所有的theta的平方和尽可能小，就是在所有的theta都等于0的情况下，所以得到的曲线会是一条近乎水平的直线
ridge4_reg = RidgeRegression(20,1000000)
ridge4_reg.fit(X_train,y_train)

y4_predict = ridge4_reg.predict(X_test)
mean_squared_error(y_test,y4_predict)

输出结果：1.8404103153255003

plot_model(ridge4_reg)

当alpha非常大的时候，本质就是让所有的theta的平方和尽可能小，就是在所有的theta都等于0的情况下，所以得到的曲线会是一条近乎水平的直线
在这里插入图片描述

Bonjour_Yvonne

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
8-8 模型泛化与岭回归

岭回归import numpy as npimport matplotlib.pyplot as pltnp.random.seed(42)x = np.random.uniform(-3.0,3.0,size=100)X = x.reshape(-1,1)y = 0.5 * x + 3 + np.random.normal(0,1,size=100)plt.scatter(x,y)plt.show()输出图片：使用多项式回归做对比from sklearn.pipeline..
复制链接

扫一扫

专栏目录