[机器学习]线性回归算法

Letmooning

已于 2024-09-26 18:40:11 修改

阅读量512

点赞数 11

文章标签：线性回归 python 算法

于 2024-09-06 18:18:59 首次发布

本文链接：https://blog.csdn.net/Letmooning/article/details/141954126

版权

1 线性回归简介

概念：利用回归方程（函数）对一个或多个自变量（特征值）和因变量（目标值）之间关系进行建模的一种分析方式。

weight：权重；bias 偏置

线性回归分类：一元线性回归、多元线性回归

应用场景：只要目标值连续，就使用线性回归

2 线性回归问题求解

2.1 线性回归API

from sklearn.linear_model import LinearRegression
x=[[160],[166],[172],[174],[180]]
y=[56.3,60.6,65.1,68.5,75]

LR=LinearRegression()
LR.fit(x,y)
# 斜率
print(LR.coef_)
# 截距
print(LR.intercept_)
LR.predict([[176]])

2.2 损失函数

3 导数和矩阵

4 正规方程法

5 梯度下降法

6 线性回归模型评估

7 波士顿房价预测

7.1 正规方程法

# 波士顿房价预测正规方程法
# 导包
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression
import pandas as pd
import numpy as np

# 获取数据
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url,sep=r"\s+",skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# 划分数据
x_train,x_test,y_train,y_test=train_test_split(data,target,random_state=22)
# 特征工程
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
# 模型训练
LR=LinearRegression()
LR.fit(x_train,y_train)
print(LR.intercept_)
print(LR.coef_)
# 模型预测
y_predict=LR.predict(x_test)
print(y_predict)

# 模型评估
print(mean_squared_error(y_predict,y_test))

7.2 梯度下降法

# 波士顿房价预测梯度下降法
# 导包
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import LinearRegression,SGDRegressor
import pandas as pd
import numpy as np

# 获取数据
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url,sep=r"\s+",skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

# 划分数据
x_train,x_test,y_train,y_test=train_test_split(data,target,random_state=22)
# 特征工程
transfer=StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
# 模型训练
LR=SGDRegressor(max_iter=100,learning_rate='constant',eta0=0.001)
LR.fit(x_train,y_train)
print(LR.intercept_)
print(LR.coef_)
# 模型预测
y_predict=LR.predict(x_test)
print(y_predict)

# 模型评估
print(mean_squared_error(y_predict,y_test))

8 欠拟合和过拟合

# 欠拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
LR=LinearRegression()
LR.fit(X,y)

# 模型预测
y_predict=LR.predict(X)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(x,y_predict,color='r')
plt.show()

# 正好拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
X2=np.hstack([X,X**2])
LR=LinearRegression()
LR.fit(X2,y)

# 模型预测
y_predict=LR.predict(X2)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(np.sort(x),y_predict[np.argsort(x)],color='r')
plt.show()

# 过拟合
# 导包
import matplotlib.pyplot as plt
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 创建数据
np.random.seed(666)
# 均匀分布
x=np.random.uniform(-3,3,size=100)
print(x.shape)
# 正态分布
y=0.5*x**2+x+2+np.random.normal(0,1,size=100)
# 模型训练
X=x.reshape(-1,1)
print(X.shape)
X3=np.hstack([X,X**2,X**3,X**4,X**5,X**6,X**7,X**8,X**9,X**10])
LR=LinearRegression()
LR.fit(X3,y)

# 模型预测
y_predict=LR.predict(X3)
print(y_predict.shape)
# 模型评估
print(mean_squared_error(y,y_predict))
# 可视化
plt.scatter(x,y)
plt.plot(np.sort(x),y_predict[np.argsort(x)],color='r')
plt.show()