线性回归完整整理

最新推荐文章于 2024-05-28 13:06:14 发布

三少Algorithm

最新推荐文章于 2024-05-28 13:06:14 发布

阅读量663

点赞数

分类专栏：机器学习文章标签：线性回归

本文链接：https://blog.csdn.net/weixin_42717395/article/details/103426974

版权

1 线性回归的定义

监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个平面，对于多维空间线性是一个超平面。

对于一元线性回归模型，假设从总体中获取了 $n$ 组观察值 $\left(X_{1}, Y_{1}\right), \quad\left(X_{2}, Y_{2}\right), \cdots, \left(X_{n}, Y_{n}\right)$ ，对于平面中的这 $n$ 个点，可以用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看，这条直线处于样本数据的中心位置最合理。

选择最佳拟合曲线的标准可以确定为：使总的拟合误差（即总残差）达到最小。有以下三个标准可以选择：

用**“残差和最小”**确定直线位置是一个途径。但很快发现计算“残差和”存在相互抵消的问题。
用**“残差绝对值和最小”**确定直线位置也是一个途径。但绝对值的计算比较麻烦。
最小二乘法的原则是以**“残差平方和最小”**确定直线位置。用最小二乘法除了计算比较方便外，得到的估计量还具有优良特性。这种方法对异常值非常敏感。

2 一元线性回归分析的普通最小二乘法

普通最小二乘法（Ordinary Least Squares，OLS）：所选择的回归模型应该使所有观测值得残差平方和达到最小，即采用残差平方和损失函数

首先介绍一元线性回归，定义数据为： $X=\left\{\left(x_{1}, y_{1}\right), \cdots,\left(x_{m}, y_{m}\right)\right\}$

定义回归模型为： $\beta+\beta_{0}$

样本 $\left(X_{i}, Y_{i}\right)$ 的误差为： $e_{i}=Y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} X_{i}$

定义残差平方和损失函数： $S(\beta)=\sum_{i=0}^{m}\left(y_{i}-x_{i} \beta-\beta_{0}\right)^{2}$

通过最小化损失函数来确定这条直线，即确定： $\beta, \beta_{0}$

对 $\beta, \beta_{0}$ 分别求导可得：
$\begin{aligned} \frac{\partial S(\beta)}{\partial \beta} &=\sum_{i=1}^{m} 2\left(y_{i}-x_{i} \beta-\beta_{0}\right)\left(-x_{i}\right) \\ &=\sum_{i=1}^{m}(-2)\left(x_{i} y_{i}-x_{i}^{2} \beta-\beta_{0} x_{i}\right) \\ &=2 \sum_{i=1}^{m}\left(x_{i}^{2} \beta+\beta_{0} x_{i}-x_{i} y_{i}\right) \end{aligned}$
和
$\begin{aligned} \frac{\partial S(\beta)}{\partial \beta_{0}} &=\sum_{i=1}^{m} 2\left(y_{i}-x_{i} \beta-\beta_{0}\right)(-1) \\ &=\sum_{i=1}^{m}(-2)\left(y_{i}-x_{i} \beta-\beta_{0}\right) \\ &=2 \sum_{i=1}^{m}\left(x_{i} \beta+\beta_{0}-y_{i}\right) \\ &=2\left(m \beta \frac{\sum_{i=1}^{m}\left(x_{i}\right)}{m}+m \beta_{0}-m \frac{\sum_{i=1}^{m} y_{i}}{m}\right) \end{aligned}$
令 $\bar{x}=\frac{\sum_{i=1}^{m}\left(x_{i}\right)}{m}, \bar{y}=\frac{\sum_{i=1}^{m} y_{i}}{m}$

则第二个偏导结果为：
$\frac{\partial S(\beta)}{\partial \beta_{0}}=2 m\left(\beta \bar{x}+\beta_{0}-\bar{y}\right)$
令第二个偏导等于0：
$\begin{array}{c}{2 m\left(\beta \bar{x}+\beta_{0}-\bar{y}\right)=0} \\ {\beta_{0}=\bar{y}-\beta \bar{x}}\end{array}$
令第一个偏导结果等于0，并将上述 $\beta_0$ 代入得：
$\frac{\partial S(\beta)}{\partial \beta}=0$

$\sum_{i=1}^{m}\left[x_{i}^{2} \beta+(\bar{y}-\beta \bar{x}) x_{i}-x_{i} y_{i}\right]=0$

$\beta\left(\sum_{i=1}^{m} x_{i}^{2}-\bar{x} \sum_{i=1}^{m} x_{i}\right)=\sum_{i=1}^{m} x_{i} y_{i}-\bar{y} \sum_{i=1}^{m} x_{i}$

最低0.47元/天解锁文章

三少Algorithm

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
线性回归完整整理

1 线性回归的定义监督学习中，如果预测的变量是离散的，我们称其为分类（如决策树，支持向量机等），如果预测的变量是连续的，我们称其为回归。回归分析中，如果只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。对于二维空间线性是一条直线；对于三维空间线性是一个...
复制链接

扫一扫

专栏目录