机器学习（二）线性回归

最新推荐文章于 2023-07-18 15:30:20 发布

不懂人情世故的天才

最新推荐文章于 2023-07-18 15:30:20 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/tink_bell/article/details/109094110

版权

Python 同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

机器学习

2 篇文章 0 订阅

订阅专栏

在这里插入图片描述

介绍

线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。

只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归
在这里插入图片描述

模型

线性回归当中主要有两种模型，一种是线性关系，另一种是非线性关系。
在这里插入图片描述

在这里插入图片描述

简单线性模型代码

from sklearn.linear_model import LinearRegression

x = [[80, 86],
[82, 80],
[85, 78],
[90, 90],
[86, 82],
[82, 90],
[78, 80],
[92, 94]]
y = [84.2, 80.6, 80.1, 90, 83.2, 87.6, 79.4, 93.4]

# 实例化API
estimator = LinearRegression()
# 使用fit方法进行训练
estimator.fit(x,y)
estimator.coef_
estimator.predict([[100, 80]])

损失函数

衡量真是结果和预测结果之间的误差的函数，又称目标函数，就是我们最终要求解的函数。

在这里插入图片描述

如何去减少这个损失，使我们预测的更加准确些？既然存在了这个损失，我们一直说机器学习有自动学习的功能，在线性回归这里更是能够体现。这里可以通过一些优化方法去优化（其实是数学当中的求导功能）回归的总损失。

答案就是求导，让这个函数的值最小，即误差最小。

优化方法

正规方程（不常用）

可以理解为将函数的系数写成矩阵形式，然后对矩阵进行求导。
在这里插入图片描述

理解：X为特征值矩阵，y为目标值矩阵。直接求到最好的结果
缺点：当特征过多过复杂时，求解速度太慢并且得不到结果

梯度下降（常用）

假设这样一个场景：

一个人被困在山上，需要从山上下来(i.e. 找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低。

因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。

具体来说就是，以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度下降的地方走，（同理，如果我们的目标是上山，也就是爬到山顶，那么此时应该是朝着最陡峭的方向往上走）。然后每走一段距离，都反复采用同一个方法，最后就能成功的抵达山谷。

当前权重 = 当前权重 - α梯度
α在梯度下降算法中被称作为学习率或者步长，意味着我们可以通过α来控制每一步走的距离

梯度的方向是函数在给定点上升最快的方向，那么梯度的反方向就是函数在给定点下降最快的方向，这正是我们所需要的。所以我们只要沿着梯度的反方向一直走，就能走到局部的最低点！

在这里插入图片描述

欠拟合和过拟合

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)
欠拟合：一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)

欠拟合：
原因：学习到数据的特征过少
解决办法：
1）添加其他特征项
2）添加多项式特征

过拟合：
原因：原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点
解决办法：
1）重新清洗数据
2）增大数据的训练量
3）正则化
4）减少特征维度，防止维灾难

正则化

L2正则化（Ridge回归）
作用：可以使得其中一些W的都很小，都接近于0，削弱某个特征的影响
优点：越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象
在这里插入图片描述

L1正则化（LASSO回归）
作用：可以使得其中一些W的值直接为0，删除这个特征的影响，产生稀疏矩阵。
在这里插入图片描述

不懂人情世故的天才

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习（二）线性回归

介绍线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归模型线性回归当中主要有两种模型，一种是线性关系，另一种是非线性关系。代码from sklearn.linear_model import LinearRegressionx = [[80, 86],[82, 80],[85, 78],[90, 90],[86, 8
复制链接

扫一扫

专栏目录