ML-线性回归

最新推荐文章于 2022-04-01 10:06:49 发布

古承风

最新推荐文章于 2022-04-01 10:06:49 发布

阅读量113

点赞数

分类专栏：深度学习，机器学习理论知识机器学习、深度学习源码阅读笔记文章标签： python 机器学习线性回归

本文链接：https://blog.csdn.net/qq_34271349/article/details/119704438

版权

深度学习，机器学习理论知识同时被 2 个专栏收录

28 篇文章 1 订阅

订阅专栏

机器学习、深度学习源码阅读笔记

24 篇文章 0 订阅

订阅专栏

该博客介绍了如何使用线性回归模型处理数据预处理、训练和预测评估。首先，从sklearn.datasets导入糖尿病数据集，对特征进行标准化处理。接着，利用sklearn库中的LinearRegression模型进行训练，并通过train_test_split划分训练集和测试集。最后，通过计算均方误差(loss)和可视化预测结果来评估模型的性能。

摘要由CSDN通过智能技术生成

1. 理论

数据集: $\left(x^{(i)}, \gamma^{(i)}\right), i=1,2, \ldots, m$ 为一个训练数据,其中 $x^{(i)}=\left(1, x_{1}^{(i)}, x_{2}^{(i)}, \cdots, x_{n}^{(i)}\right)$
拟合公式
$h_{\theta}(x)=\theta_{0}+\theta_{1} x_{1}+\theta_{2} x_{2}+\ldots \theta_{n} x_{n}=\theta^{T} x$

其中:

$x=\left(\begin{array}{c} 1 \\ x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right), \quad \theta=\left(\begin{array}{c} \theta_{0} \\ \theta_{1} \\ \vdots \\ \theta_{n} \end{array}\right)$

代价函数

$J(\theta)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}$

2. 实践

2.1. 数据预处理


from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris,load_diabetes

diabetes = load_diabetes()

x = diabetes.data
y = diabetes.target
names = diabetes.feature_names

from sklearn.preprocessing import StandardScaler

x = StandardScaler().fit_transform(x)

y = y.reshape(-1,1)
y = StandardScaler().fit_transform(y)

2.2. 训练


import pandas as pd 
import seaborn as sns

from sklearn.linear_model import LinearRegression

lr = LinearRegression(normalize=True)

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(x,y,test_size=0.2)

lr.fit(X_train,y_train)

2.3. 预测评估与可视化


import seaborn as sns 
import numpy as np 
import matplotlib.pyplot as plt 

y_pred = lr.predict(X_test)

x_axis = np.arange(0,len(y_pred),1)

plot_data = []

for x_,y_pred_ in zip(x_axis,y_pred):
    plot_data.append((x_,y_pred_[0],'true'))

for x_,y_test_ in zip(x_axis,y_test):
    plot_data.append((x_,y_test_[0],'pred'))

plot_data = pd.DataFrame(plot_data,columns=['x','y','label'])

sns.lineplot(plot_data['x'],plot_data['y'],hue=plot_data['label'])
# sns.lineplot(plot_data['x_idx'],plot_data['y_pred'])

from sklearn.metrics import mean_squared_error

loss = mean_squared_error(y_pred,y_test)
plt.title(f"loss:{loss:.2f}")
plt.show()