数据挖掘：模型选择——线性回归

最新推荐文章于 2023-02-15 17:22:47 发布

AvenueCyy

最新推荐文章于 2023-02-15 17:22:47 发布

阅读量2.9k

点赞数 2

分类专栏：数据挖掘文章标签：机器学习数据分析数据挖掘

本文链接：https://blog.csdn.net/avenuecyy/article/details/105049023

版权

本文深入探讨了线性回归，从一元线性回归到多元线性回归，接着介绍了岭回归和Lasso回归，讨论了它们如何处理多重共线性问题。还提到了多项式回归用于非线性数据拟合，并概述了数据预处理的重要步骤，包括无量纲化、分类数据处理和缺失值处理。

摘要由CSDN通过智能技术生成

线性回归

一元线性回归

最早接触的线性回归是y=ax+b的形式，这是对于一元线性回归来说。我们给入数据，通过最小二乘法，让真实值和预测值的残差平方和（也就是要优化的损失函数）最小。可对系数求一阶导数，让其为0，求得未知的a,b，得到方程。
在这里插入图片描述

多元线性回归

而一般情况下，我们遇到的数据不是只有一个维度，而是多维数据，这时要用到多元线性回归。多元线性回归的公式为：
在这里插入图片描述
以上是一个数据对应的公式，如果在所有数据合在一起，则公式变为：

为了更加简洁，把上述公式改写为矩阵的格式。其中，X是我们的数据，w是需要求得参数，y^是预测的变量。

在一元回归的求解时，定义了预测值与实际值之间的残差平方和为损失函数，通过让该函数最小，得到了要求的系数。在多元回归中，进行同样的处理，得到如下公式。
在这里插入图片描述
所以，我们的目标就是找到一组w，使得损失函数最小。

这里有两种方式求解，一是梯度下降法，二是正规方程法。
1：梯度下降法：
在一元线性回归中，通过求导，另其为0，得到答案。但是在数据量特别大的时候，这种方法会很慢，这时可以使用梯度下降法，来更加迅速的求得使损失函数最小化的参数。
梯度下降法：相当于我们下山的过程，每次我们要走一步下山，寻找最低的地方，那么最可靠的方法便是环顾四周，寻找能一步到达的最低点，持续该过程，最后得到的便是最低点。
对于函数而言，便是求得该函数对所有参数（变量）的偏导，每次更新这些参数，直到到达最低点为止，注意这些参数必须在每一轮一起更新，而不是一个一个更新。
在这里插入图片描述
计算过程：
定义的损失函数为：