线性模型之线性回归算法详细推导

最新推荐文章于 2025-03-31 00:03:30 发布

AIHUBEI

最新推荐文章于 2025-03-31 00:03:30 发布

阅读量2.1k

点赞数 2

文章标签：算法机器学习数据挖掘

本文链接：https://blog.csdn.net/AIHUBEI/article/details/104320054

版权

线性模型之线性回归算法

一、线性模型基本形式

给定 $d$ 个属性描述的示例 $x=(x_1;x_;x_3;...;x_d)$ ，其中， $x_i$ 是在第 $i$ 个属性上的取值，则线性模型可以描述为以下形式：
$f(x)=w_1x_1+w_2x_2+...+w_dx_d+b\qquad（式1）\\$
写成向量形式：
$f(x)=W^Tx+b\qquad（式2）\\$
其中， $W=(w_1;w_2,w_3;...;w_d)$ ,这样一来在确定了 $w 和 b$ 之后，就可以确定模型。

二、线性回归

给定数据集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$ ，其中 $x_i=(x_{i1};x_{i2};...;x_{id})$ ,同时 $y_i\in{\mathbb{R}}$ .**注意这里都是指向量，不要混淆。**然后线性回归模型就是试图学习得到一个线性模型，然后尽可能准确的预测真是的输出标记。如下所示：
$f(x_i)=wx_i+b,使得f(x_i)\approx{y_i}\qquad（式3）\\$
这里的任务就是要确定 $w 和 b$ ，其中求取的关键步骤在于使用均方误差。

三、均方误差

使用均方误差来衡量 $f (x) 与 y$ 之间的差别，他的集合意义是欧氏距离。这里我们试图让均方误差最小化，然后通过求导从而求出参数 $w 和 b$ 。
$(w^*,b^*)=argmin_{(w,b)}\sum_{i=1}^{m}(f(x_i)-y_i)^2=argmin_{(w,b)}\sum_{i=1}^{m}(y_i-wx_i-b)^2 \qquad(式4)\\$
集合表示如下：
在这里插入图片描述
可以清楚的看到，有些预测值在真实值的下面，所以这里使用平方，从而消除符号的影响，通常还会乘以 $\cfrac{1}{2M}$ ,从而显示出均,这里的 $\cfrac{1}{2}$ 是为了求导计算的方便性，消除幂指数。

四、线性回归模型的最小二乘“参数估计”

在这里，求解 $w 和 b$ 使得 $E_{(w,b)}=\sum_{i=1}^{m}(y_i-wx_i-b)^2$ 最小化的过程，称之为线性回归模型的最小二乘“参数估计”。对 $E_{(w,b)}$ 分别对 $w 和 b$ 求偏导数，当然这里就是求导数。因为对其中的一个参数求导的时候，另一个参数就可以视为常量，故而这就是求导操作。
$\cfrac{\partial{E(w,b)}}{{\partial{w}}}=2(\sum_{i=1}^{m}(y_i-wx_i-b)(-x_i))=2(w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i) \qquad(式5)\\$
$\cfrac{\partial{E{(w,b)}}}{\partial{b}}=\sum_{i=1}^{m}(2\times(y_i-wx_i-b)(-1))=2(mb-\sum_{i=1}^{m}(y_i-wx_i)) \qquad(式6)\\$
这里的 $\sum_{i=1}^{m}b$ 就等于 $m b$ ,因为 $b$ 与 $i$ 无关。
在这里， $E (w, b)$ 是关于 $w 和 b$ 凸函数，根据凸优化理论，当其关于 $w 和 b$ 的导数均为零时，就可以求得 $w, b$ 的最优解。

证明 $E (w, b)$ 为凸函数的过程，见下一篇博客。

五、求解 $w, b$ 的公式推导

首先由最小二乘法导出损失函数 $\Longrightarrow$ 证明损失函数 $E (w, b)$ 是关于 $w, b$ 的凸函数 $\Longrightarrow$ 对损失函数 $E (w, b)$ 分别关于 $w, b$ 求一阶（偏）导数 $\Longrightarrow$ 令一阶（偏）导数为零 $\Longrightarrow$ 解出 $w 和 b$ .

令 $(式 6) 为零$ ，即：
$2(mb-\sum_{i=1}^{m}(y_i-wx_i))=0 \qquad(式7)\\$
$得到：mb-\sum_{i=1}^{m}(y_i-wx_i)=0 \qquad(式8)\\$
$得到：b=\cfrac{1}{m}\sum_{i=1}^{m}(y_i-wx_i)=\bar{y}-w\bar{x} \qquad(式9)\\$

注： $\cfrac{1}{m}\sum_{i=1}^{m}y_i=\bar{y}$ 也就是 $y$ 的均值；同理 $\cfrac{1}{m}\sum_{i=1}^{m}x_i=\bar{x}$ 。

令 $(式 5) 为零$ ，即：
$2(w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i)=0 \qquad(式10)\\$
$w\sum_{i=1}^{m}x_i^2-\sum_{i=1}^{m}(y_i-b)x_i=0 \qquad(式11)\\$
$w\sum_{i=1}^{m}x_i^2=\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}bx_i ,将b带入得到下式 \qquad(式12)\\$
$w\sum_{i=1}^{m}x_i^2=\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}(\bar{y}-w\bar{x})x_i\Longleftrightarrow{w\sum_{i=1}^{m}x_i^2-w\bar{x}\sum_{i=1}^{m}x_i=\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}\bar{y}x_i} \qquad(式13)\\$
于是， $w=\cfrac{\sum_{i=1}^{m}y_ix_i-\sum_{i=1}^{m}\bar{y}x_i}{\sum_{i=1}^{m}x_i^2-\bar{x}\sum_{i=1}^{m}x_i}$ ，哎，怎么发现跟书上不一样呢？

注： $\sum_{i=1}^{m}\bar{y}x_i=\cfrac{1}{m}\sum_{i=1}^{m}y_ix_i=\bar{x}\sum_{i=1}^{m}y_i$ 同时， $\bar{x}\sum_{i=1}^{m}x_i=\cfrac{1}{m}\sum_{i=1}^{m}x_i\cdot\sum_{i=1}^{m}x_i=\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2$ ，所以进一步转为下式：
$w=\cfrac{\sum_{i=1}^{m}y_i(x_i-\bar{x})}{\sum_{i=1}^{m}x_i^2-\cfrac{1}{m}(\sum_{i=1}^{m}x_i)^2} \qquad(式14)\\$
至此，我们就求出了 $w 和 b$ 的最优解。

六、多元线性回归

相较于上面的线性回归，这里实际上是把 $b$ 给吸收了，具体操作为将 $b$ 换成 $w_{d+1}\cdot1$ 。这样一来参数就只有 $w$ 了。
推导过程：由最小二乘法导出损失函数 $E_{\hat{w}}\Longrightarrow$ 证明损失函数 $E_{\hat{w}}$ 是关于 $\hat{w}$ 的凸函数 $\Longrightarrow$ 对损失函数 $E_{\hat{w}}$ 关于 $\hat{w}$ 求取一阶导数 $\Longrightarrow$ 令一阶导数为零向量解出 $\hat{w}^*$ 。
其中，这里是通过将 $w 和 b$ 组合形成的 $\hat{w}$ 。

这里关于凸函数的证明，请参见下一篇博客。

$f(x_i)=W^Tx_i+b \qquad 写成向量形式如下：$
$f(x_i)=(w_1,w_2,w_3,...,w_d) \left( \begin{matrix} x_{i1} \\ x_{i2}\\ \vdots\\ x_{id} \end{matrix} \right)+b \tag{式15}$
展开得到如下式子：
$f(x_i)=w_1x_{i1}+w_2x_{i2}+w_3x_{i3}+\cdots+w_dx_{id}+b\tag{式16}$
因为 $(式 16)$ 中的 $b$ 本身就是未知数，所以进行替换为 $w_{d+1}\cdot1$ 是没有任何影响的，这样就得到下式：
$f(x_i)=w_1x_{i1}+w_2x_{i2}+w_3x_{i3}+\cdots+w_{d}x_{id+}w_{d+1}\cdot1\Longleftrightarrow$
$f(x_i)=(w_1,w_2,w_3,\cdots,w_d,w_{d+1}) \left( \begin{matrix} x_{i1} \\ x_{i2}\\ \vdots\\ x_{id}\\ 1 \end{matrix} \right) \tag{式17}$
其中， $(w_1,w_2,w_3,\cdots,w_d,w_{d+1})$ 记为 $\hat{w}^T$ ,同时 $\left(\begin{matrix} x_{i1} \\ x_{i2}\\ \vdots\\ x_{id}\\ 1\end{matrix}\right)$ 记为 $\hat{x}_i$ ,这样 $(式 17)$ 简写为如下形式： $f(\hat{x}_i)=\hat{w}_i^T\hat{x}_i \tag{式18}$

七、多元线性回归损失函数

由最小二乘法导出损失函数 $E\hat{w}$ 为：
$E\hat{w}=\sum_{i=1}^{m}(y_i-f(x_i))^2=\sum_{i=1}^{m}(y_i-\hat{w}^T\hat{x}_i)^2 \tag{式19}$
将上式展开，得到展开形式如下；
$\sum_{i=1}^{m}(y_i-\hat{w}^T\hat{x}_i)^2 =(y_1-\hat{w}^T\hat{x}_1)^2+(y_2-\hat{w}^T\hat{x}_2)^2+(y_3-\hat{w}^T\hat{x}_3)^2+\cdots+(y_{m-1}-\hat{w}^T\hat{x}_{m-1})^2+(y_m-\hat{w}^T\hat{x}_m)^2 \qquad(式20)\\$
将上式写成矩阵相乘的形式，如下：
$(y_1-\hat{w}^T\hat{x}_1,y_2-\hat{w}^T\hat{x}_2,y_3-\hat{w}^T\hat{x}_3,\cdots,y_m-\hat{w}^T\hat{x}_m) \left( \begin{matrix} y_1-\hat{w}^T\hat{x}_1\\ y_2-\hat{w}^T\hat{x}_2\\ y_3-\hat{w}^T\hat{x}_3\\ \vdots\\ y_m-\hat{w}^T\hat{x}_m \end{matrix} \right) \tag{式21}$
又因为如下原因：
$\left( \begin{matrix} y_1-\hat{w}^T\hat{x}_1\\ y_2-\hat{w}^T\hat{x}_2\\ y_3-\hat{w}^T\hat{x}_3\\ \vdots\\ y_m-\hat{w}^T\hat{x}_m \end{matrix} \right) = \left( \begin{matrix} y_1\\ y_2\\ y_3\\ \vdots\\ y_m \end{matrix} \right)-\left( \begin{matrix} \hat{w}^T\hat{x}_1\\ \hat{w}^T\hat{x}_2\\ \hat{w}^T\hat{x}_3\\ \vdots\\ \hat{w}^T\hat{x}_m \end{matrix} \right)=\left( \begin{matrix} y_1\\ y_2\\ y_3\\ \vdots\\ y_m \end{matrix} \right)-\left( \begin{matrix} \hat{x}_1^T\hat{w}\\ \hat{x}_2^T\hat{w}\\ \hat{x}_3^T\hat{w}\\ \vdots\\ \hat{x}_m^T\hat{w} \end{matrix} \right) \tag{式22}$
其中，后一项满足如下形式变换：
$\left( \begin{matrix} \hat{x}_1^T\hat{w}\\ \hat{x}_2^T\hat{w}\\ \hat{x}_3^T\hat{w}\\ \vdots\\ \hat{x}_m^T\hat{w} \end{matrix} \right)= \left( \begin{matrix} \hat{x}_1^T\\ \hat{x}_2^T\\ \hat{x}_3^T\\ \vdots\\ \hat{x}_m^T\\ \end{matrix} \right)\cdot\hat{w}=X\cdot\hat{w} \tag{式23}$
所以损失函数 $E\hat{w}$ 最终形式为：
$E\hat{w}=(Y-X\cdot\hat{w})^T\cdot(Y-X\cdot\hat{w}) \tag{式24}$

注： $Y=(y_1,y_2,y_3,\cdots,y_m)^T$ ,同时，矩阵 $X$ 为：

$\left( \begin{matrix} x_{11}&x_{12}&x_{13}&\cdots&x_{1d}&1\\ x_{21}&x_{22}&x_{23}&\cdots&x_{2d}&1\\ x_{31}&x_{32}&x_{33}&\cdots&x_{3d}&1\\ \vdots&\vdots&\vdots&\ddots&\vdots&\vdots\\ x_{m1}&x_{m2}&x_{m3}&\cdots&x_{md}&1\\ \end{matrix} \right)=\left( \begin{matrix} x^T_1&1\\ x^T_2&1\\ x^T_3&1\\ \vdots&\vdots\\ x^T_m&1 \end{matrix} \right)=\left( \begin{matrix} \hat{x}^T_1\\ \hat{x}^T_2\\ \hat{x}^T_3\\ \vdots\\ \hat{x}^T_m \end{matrix} \right) \tag{式25}$

八、求解 $\hat{w}$ 公式推导

知识准备： $\cfrac{\partial{x}^Ta}{\partial{x}}=\cfrac{\partial{a}^Tx}{\partial{x}}=a$ ，以及 $\cfrac{\partial{x}^T\beta{x}}{\partial{x}}=(\beta+{\beta}^T)x$ ，这是必须的公式。
求解过程如下：
$\cfrac{\partial{E\hat{w}}}{\partial{\hat{w}}}=\cfrac{\partial(-Y^TX\hat{w}-\hat{w}^TX^TY+\hat{w}^TX^TX\hat{w})}{\partial{\hat{w}}} \tag{式26}$
展开有 $(式 26) 等于$ ：
$=\cfrac{-\partial{(Y^TX\hat{w})}}{\partial{\hat{w}}}-\cfrac{\partial{(\hat{w}^TX^TY)}}{\partial{\hat{w}}}+\cfrac{\partial(\hat{w}^TX^TX\hat{w})}{\partial\hat{w}}=-X^TY-X^TY+(X^TX+X^TX)\hat{w}=2X^T(X\hat{w}-Y)\tag{式27}\\$
令一阶导数为令，就可以解出 $\hat{w}^*$ ;
$\cfrac{\partial{E\hat{w}}}{\partial\hat{w}}=2X^T(X\hat{w}-Y)=0，也就是2X^TX\hat{w}=2X^TY,最终得出\hat{w}^*=(X^TX)^{-1}X^TY。$
至此，我们已经求出最优解。关于此处凸函数，和上面凸函数的证明，请参考下一篇博客。