目录
一、说明
这次更新一下线性回归的项目实战,使用sklearn简单实现线性回归和梯度下降。
本次使用的数据为红酒口感数据集,小伙伴们可以点击链接进行下载(ps:下载后不用对数据进行修改哦!).
二、OLS回归的实现
2.1调用numpy导入数据集
#调用numpy导入数据集
import numpy as np
data = np.genfromtxt('winequality-red.csv',delimiter=';',skip_header=True)
X = data[:,:-1]
X
y = data[:,-1]
y
2.2训练OLS模型并进行预测
#建立OLS模型
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
#将数据集划分成训练集和测试集(比例为7:3)
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3)
lr = LinearRegression()
#训练模型
lr.fit(X_train, y_train)
#进行预测
y_pred = ols_lr.predict(X_test)
y_pred
2.3计算MSE,用以衡量模型的性能
#计算均方误差MSE
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_test,y_pred)
mse
#计算模型在训练集上的MSE
y_train_pred = ols_lr.predict(X_train)
mes_train = mean_squared_error(y_train,y_train_pred)
mes_train
可以看出,模型在训练集和测试集的MSE相差不大,表明模型并未发生过拟合现象。
三、进行梯度下降
3.1将数据进行标准化处理
3.1.1标准化处理
标准化是指将各特征的均值设置为0,方差设置成1.可以将各特征值缩放到相同的尺寸。(这个下次有机会再介绍)对第个实例的第
个实例的第
个特征
,标准化公式为:
3.1.2将数据进行标准化
#先将数据进行标准化处理
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
ss.fit(X_train)
X_train_std = ss.transform(X_train)
X_test_std = ss.transform(X_test)
X_train_std[:3]
X_test_std[:3]
3.2训练模型
#训练模型
from sklearn.linear_model import SGDRegressor
sgd=SGDRegressor()
sgd.fit(X_train_std,y_train)
3.3进行预测
#进行预测
y_pred = sgd.predict(X_test_std)
y_pred
#计算MSE,评估模型性能
mse = mean_squared_error(y_test,y_pred)
mse
每次运行的结果就不贴到这里了,小伙伴们可以动手试一下哦!这次写得比较仓促,之后有机会的话,还会再完善一下的。