最小二乘法求回归直线方程的推导过程

最新推荐文章于 2025-01-24 23:29:16 发布

梦寐_

最新推荐文章于 2025-01-24 23:29:16 发布

阅读量1.8k

点赞数

分类专栏： scikit-learn

原文链接：https://blog.csdn.net/MarsJohn/article/details/54911788

版权

scikit-learn 专栏收录该内容

18 篇文章

订阅专栏

在数据的统计分析中，数据之间即变量x与Y之间的相关性研究非常重要，通过在直角坐标系中做散点图的方式我们会发现很多统计数据近似一条直线，它们之间或者正相关或者负相关。虽然这些数据是离散的，不是连续的，我们无法得到一个确定的描述这种相关性的函数方程，但既然在直角坐标系中数据分布接近一条直线，那么我们就可以通过画直线的方式得到一个近似的描述这种关系的直线方程。当然，从前面的描述中不难看出，所有数据都分布在一条直线附近，因此这样的直线可以画出很多条，而我们希望找出其中的一条，能够最好地反映变量之间的关系。换言之，我们要找出一条直线，使这条直线“最贴近”已知的数据点，设此直线方程为：

$①\hat{y}=a+bx$

这里的 $\hat{y}$ 是为了区分Y的实际值 y（这里的实际值就是统计数据的真实值，我们称之为观察值），当 $x_{i}$ 取值(i=1，2，3……n)时，Y的观察值为 $\hat{y}$ ，近似值为 $\hat{y}$ （或者说对应 $x_{i}$ 的纵坐标是 $\hat{y}=a+bx_{i}$ ）。

其中①式叫做Y对x的回归直线方程，b叫做回归系数。要想确定回归直线方程①，我们只需确定a与回归系数b即可。
设x，Y的一组观察值为：
( $x_{i}$ , $y_{i}$ ) $i = 1 ， 2 ， 3 \dots \dots n$

其回归直线方程为：
$\hat{y}=a+bx$

当x取值(i=1，2，3……n)时，Y的观察值为 $y_{i}$ ，差 $y_{i}$ - $\hat{y}$ 刻画了实际观察值与回归直线上相应点纵坐标之间的偏离程度，见下图：
在这里插入图片描述
实际上我们希望这n个离差构成的总离差越小越好，只有如此才能使直线最贴近已知点。换句话说，我们求回归直线方程的过程其实就是求离差最小值的过程。

一个很自然的想法是把各个离差加起来作为总离差。可是，由于离差有正有负，直接相加会互相抵消，如此就无法反映这些数据的贴近程度，即这个总离差不能用n个离差之和来表示，见下图：
在这里插入图片描述
一般做法是我们用离差的平方和，即：

作为总离差，并使之达到最小。这样回归直线就是所有直线中Q取最小值的那一条。由于平方又叫二乘方，所以这种使“离差平方和为最小”的方法，叫做最小二乘法。