求解线性回归方程

最新推荐文章于 2022-04-30 17:06:42 发布

小志8554

最新推荐文章于 2022-04-30 17:06:42 发布

阅读量1k

点赞数

文章标签：线性回归机器学习

本文链接：https://blog.csdn.net/u011450367/article/details/121844479

版权

线性回归

最小二乘法求解单变量线性回归
最小二乘法求解多变量线性回归

最小二乘法求解单变量线性回归

已知数据集 ${(x_1, y_1), (x_2, y_2)...(x_N, y_N)}$
假设一元线性回归方程为 $\hat y = b*x+a$ ，接下来用最小二乘法求解a和b
$\displaystyle 损失函数\mathcal{L}(a, b) = \Sigma_{i=1}^N (\hat y_i-y_i)^2 = \Sigma_{i=1}^N (b*x_i+a-y_i)^2$
$\displaystyle \frac {\partial \mathcal{L}} {\partial a} = \Sigma_{i=1}^N 2(b*x_i+a-y_i) = \Sigma_{i=1}^N 2bx_i + 2aN - \Sigma_{i=1}^N y_i =2bN \overline x +2aN-N \overline y = 2N(b \overline x +a- \overline y)$
令 $\displaystyle \frac {\partial \mathcal{L}} {\partial a} = 0$ ，求得 $\overline y-b \overline x$ ，带入 $\mathcal{L}(a, b)$

$\displaystyle \mathcal{L}(a, b) = \Sigma_{i=1}^N (b*x_i + \overline y - b \overline x - y_i)^2 = \Sigma_{i=1}^N [b(x_i - \overline x) - (y_i - \overline y)]^2$

$\displaystyle \frac {\partial \mathcal{L}} {\partial b} = \Sigma_{i=1}^N 2(x_i - \overline x )[b(x_i - \overline x) - (y_i - \overline y)] = \Sigma_{i=1}^N[2b(x_i - \overline x)^2 - 2(x_i - \overline x)(y_i - \overline y)] = 2b\Sigma_{i=1}^N (x_i - \overline x)^2 - 2\Sigma_{i=1}^N (x_i - \overline x)(y_i - \overline y) =2bVar(x) - 2Cov(x, y)$
令 $\displaystyle \frac {\partial \mathcal{L}} {\partial b} = 0$ ，求得 $\displaystyle b = \frac {Cov(x, y)} {Var(x)}$

最小二乘法求解多变量线性回归

上面处理的是 $x_i, y_i \in R$ 的情况，下面讨论多变量线性回归。假设 $\boldsymbol x_i \in R^{1 \times D}（\textbf {行向量}）, \boldsymbol y_i \in R, \boldsymbol x \in R^{N \times D}, \boldsymbol y \in R^N$ ，其中N为样本总个数，D为特征维数。
假设线性回归模型为 $\hat \boldsymbol y = \boldsymbol x \cdot \boldsymbol \theta$ ，接下来用最小二乘法求解 $\boldsymbol \theta \in R^D$
$损失函数\mathcal{L}(\boldsymbol \theta) = || \boldsymbol x \boldsymbol \theta - \boldsymbol y||^2 = ||\boldsymbol e||^2 = \boldsymbol e^\mathrm T \boldsymbol e, (\boldsymbol e = \boldsymbol x \boldsymbol \theta - \boldsymbol y)$
根据链式法则
$\displaystyle \frac {\partial \mathcal{L}} {\partial \boldsymbol \theta} = \frac {\partial \mathcal{L}} {\partial \boldsymbol e} \frac {\partial \boldsymbol e} {\partial \boldsymbol \theta}= 2\boldsymbol e^\mathrm T\boldsymbol x = 2(\boldsymbol x \boldsymbol \theta - \boldsymbol y)^\mathrm T \boldsymbol x = 2\boldsymbol \theta^\mathrm T \boldsymbol x^\mathrm T \boldsymbol x - 2\boldsymbol y^\mathrm T \boldsymbol x$

令 $\displaystyle \frac {\partial \mathcal{L}} {\partial \boldsymbol \theta} = 0$ ，得到 $\boldsymbol \theta^\mathrm T \boldsymbol x^\mathrm T \boldsymbol x = \boldsymbol y^\mathrm T \boldsymbol x$ ，两边同时转置，得到 $\boldsymbol x^\mathrm T \boldsymbol x \boldsymbol \theta = \boldsymbol x^\mathrm T \boldsymbol y$
注意 $\displaystyle \boldsymbol x^\mathrm T \boldsymbol x \in R^{D \times D}$ 是一个半正定对称矩阵，可逆。因此，最终的解为
$\boldsymbol \theta = (\boldsymbol x^\mathrm T \boldsymbol x )^{-1}\boldsymbol x^\mathrm T \boldsymbol y$