一天一个机器学习小知识——线性回归

最新推荐文章于 2023-06-28 13:48:29 发布

易长安

最新推荐文章于 2023-06-28 13:48:29 发布

阅读量417

点赞数 1

分类专栏：一天一个机器学习小知识

本文链接：https://blog.csdn.net/qq_43019258/article/details/108930056

版权

一天一个机器学习小知识专栏收录该内容

8 篇文章 6 订阅

订阅专栏

本文详细介绍了线性回归的基本原理，包括模型构建、最小化平方损失函数的策略和梯度下降算法。随后，通过sklearn库展示了从数据预处理到模型评估的实际操作，并探讨了线性回归的优缺点，适合初学者理解统计学习基本概念。

摘要由CSDN通过智能技术生成

前言

本栏目主要介绍机器学习中的算法模型，具体包含算法推导、应用场景、代码实现以及模型优缺点这几个模块。本文先介绍机器学习中最简单的一个算法模型——线性回归。

一、算法推导

李航老师的《统计学习方法》中提到，统计学习方法都是由模型、策略和算法构成的，因此本文在算法推导也主要从这三部分进行展开讨论。

1.模型

模型通俗来说就是最后要得到一个什么样的方程。线性回归的模型如下：
$f(x) = w_{0}^Tx + b=w^Tx$
其中在训练阶段 $f (x) 和 x$ 都是已知的， $w 和 b$ 是需要估计的参数。

2.策略

有了模型，接下来就需要考虑按照什么样准则学习或选择最优的模型。选择最优模型的原则一般是最小化损失函数，所以策略其实是给出损失函数。线性回归的损失函数一般采用平方损失函数：
$J(w)=\frac{1}{m} \sum_{i=1}^{m}\left(f\left(\boldsymbol{x}_{i}\right)-y_{i}\right)^{2}=\frac{1}{m} \sum_{i=1}^{m}\left(w^Tx_{i}-y_{i}\right)^{2}$
其中 $f(x_{i})$ 是模型的预测值， $y_{i}$ 是真实值。

3.算法

算法部分就是通过最小化Loss来求出参数 $w$ ，求最小值的方法有很多，最常用的是通过梯度下降迭代求得最小值。但是对于线性回归的损失函数，我们有更简单的方式： $J (w)$ 直接对 $w$ 求导，令其导数等于0。
$\frac{\partial J(w)}{\partial w}=0$
得到：
$X^{T} X w=X y$
其中 $X$ 是样本矩阵，求得 $w 的最优解$
$w^{*}=\left(X^{T} X\right)^{-1} X^{T} y$
将 $w^*$ 代入模型中即可得到最终方程。

二、应用场景

线性回归由于比较简单，可解释性强，因此在经济学这种重解释的领域应用的比较多，绝大部分的计量方法都是基于线性回归的。平时生活的一些比较简单的相关关系也可以使用线性回归来进行预测。

三、代码实现

这里主要使用sklearn这个库来实现机器学习算法。

1.导入相关库

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.datasets import fetch_california_housing
from sklearn.metrics import mean_squared_error
import pandas as pd
import numpy as np

2.读取样例数据

data = fetch_california_housing() # 获取样例数据，这里的数据是加利福利亚的放假数据
X = pd.DataFrame(data.data,columns=data.feature_names)
y = data.target

在这里插入图片描述

"""
MedInc：该街区住户的收入中位数
HouseAge：该街区房屋使用年代的中位数
AveRooms：该街区平均的房间数目
AveBedrms：该街区平均的卧室数目
Population：街区人口
AveOccup：平均入住率
Latitude：街区的纬度
Longitude：街区的经度
"""

3.划分训练集和测试集

X_train, X_test, y_train, y_test =train_test_split(X,y,test_size=0.3,random_state=0)

4.建立模型

model = LinearRegression().fit(X_train,y_train)
y_pred = model.predict(X_test)
最终模型参数

在这里插入图片描述

5.评估模型

计算均方误差MSE

print('MSE:%.3f'%(mean_squared_error(y_test,y_pred)))
MSE:0.543

其实上面用的方法是留出法，我们也可以使用交叉验证法来计算模型误差。这样就把划分训练集和测试集、建立模型以及评估模型这几步合并在一起。

mse = -np.mean(cross_val_score(LinearRegression(),X,y,cv=10,scoring='neg_mean_squared_error'))
print('MSE:%.3f'%(mse))
MSE:0.551

可以看到两者比较接近。

四、优缺点

1.优点

（1）可解释性强，可以清晰的知道每个特征对模型的影响
（2）简单快速

2.缺点

（1）只适用于数据之间的线性关系，但现实生活中大多数特征之间的关系是非线性的。
（2）需要满足一些假设，特征之间不能存在共线性

易长安

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
一天一个机器学习小知识——线性回归

文章目录前言一、算法推导1.模型2.策略3.算法二、应用场景三、代码实现1.导入相关库2.读取样例数据3.划分训练集和测试集4.建立模型5.评估模型四、优缺点1.优点2.缺点前言本栏目主要介绍机器学习中的算法模型，具体包含算法推导、应用场景、代码实现以及优缺点比较这几个模块。本文先介绍机器学习中最简单的一个算法模型——线性回归。一、算法推导李航老师的《统计学习方法》中提到，统计学习方法都是由模型、策略和算法构成的，因此本文在算法推导也主要从这三部分进行展开讨论。1.模型模型通俗来说就是最后要
复制链接

扫一扫

专栏目录