线性回归损失函数的最优解推导

最新推荐文章于 2021-09-10 16:34:20 发布

june_francis

最新推荐文章于 2021-09-10 16:34:20 发布

阅读量3.8k

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/june_young_fan/article/details/97911294

版权

python 专栏收录该内容

78 篇文章 11 订阅

订阅专栏

前言

我的上一篇文章给大家分析了线性回归的损失函数为什么是最小二乘，那么接下来给大家一下简单的演绎一下线性回归损失函数的最优解的推导过程。

场景

假设我们有由 $M$ 个 $N$ 维样本组成的矩阵 $X$ ，其中X的每一行对应一个样本，共 $M$ 个样本，每一列对应样本的一个维度，共 $N$ 维，还有额外的一维常数项，全为 $1$ （这个地方是为了拟合回归方程中的偏置项，不再详细解释）。

解析式推导

上一篇文章得到的线性回归的损失函数为：
$\frac{1}{2}\sum_{i=1}^m (h_θ(x^{(i)}) - \hat{y}^{(i)})^2$
这里我们写成矩阵的形式：
$\frac{1}{2}(Xθ - y)^T(Xθ - y)$
求梯度：
$\nabla_{θ}J(θ) = \nabla_{θ}(\frac{1}{2}(Xθ - y)^T(Xθ - y))$
$\nabla_{θ}(\frac{1}{2}(θ^TX^T - y^T)(Xθ - y))$
$\nabla_{θ}(\frac{1}{2}(θ^TX^TXθ - θ^TX^Ty - y^TXθ + y^Ty))$
$\frac{1}{2}(X^TXθ + X^TXθ - X^Ty - X^Ty)$
$X^TXθ - X^Ty$

找驻点，令 $\nabla_{θ}J(θ) = 0$ 可得：
$X^TXθ - X^Ty = 0$
$\Rightarrow X^TXθ = X^Ty$
$\Rightarrow (X^TX)^{-1}X^TXθ = (X^TX)^{-1}X^Ty$
$\Rightarrow (X^TX)^{-1}(X^TX)θ = (X^TX)^{-1}X^Ty$
$\Rightarrow I \cdot θ = (X^TX)^{-1}X^Ty$
$\Rightarrow θ = (X^TX)^{-1}X^Ty$
这就是我们求得的参数 $θ$ 最优解的解析式。

适用性

实际上上述求得的参数 $θ$ 最优解的解析式又叫做正规方程（Normal Equation），适用场景有限，特别是以下两种情况：

① 样本的特征维度较大（ $10^4$ 以上），此时的计算量巨大。
② $X^TX$ 不可逆，此时我们求得的参数 $θ$ 最优解的解析式无意义。

第一种情况，我们从正规方程的解析式就可以看出来，特征矩阵的维度越大，对于矩阵的乘法和求逆这个运算量是十分庞大的。

第二种情况，事实上我们可以证明矩阵 $X^TX$ 是一个半正定矩阵：
对于任意 $n$ 维非零向量 $\vec{u}$ 来说：
$\vec{u}^TX^TX\vec{u} \Rightarrow (X\vec{u})^T(X\vec{u})$
令 $\vec{v} = X\vec{u}$ :
$(X\vec{u})^T(X\vec{u}) \Rightarrow \vec{v}^T\vec{v} ≥ 0$
所以矩阵 $X^TX$ 不可逆的情况是存在的！
那么这种情况下我们在原先的正规方程中加入了 $\lambda$ 扰动，使得：
$(X^TX + \lambda I)^{-1}X^Ty$
而矩阵 $(X^TX + \lambda I)$ 被证明是正定的，即它也是可逆的，这里不再赘述。
通过这个改良后的解析式，我们可以很容易就得到带有正则化项的损失函数：
$\Rightarrow J(θ) = \frac{1}{2}\sum_{i=1}^m (θ_ix_i - \hat{y}_i)^2 + \lambda θ_i^2$
$\Rightarrow J(θ) = \frac{1}{2}\sum_{i=1}^m (θ_ix_i - \hat{y}_i)^2 + \lambda |θ_i|$
对于以上两种情况我们可以都使用梯度下降法(Gradient Descent)或者牛顿法去求解最优解。

june_francis

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
线性回归损失函数的最优解推导

前言我的上一篇文章给大家分析了线性回归的损失函数为什么是最小二乘，那么接下来给大家一下简单的演绎一下线性回归损失函数的最优解的推导过程。场景假设我们有由 MMM 个 NNN 维样本组成的矩阵 XXX ，其中X的每一行对应一个样本，共 MMM 个样本，每一列对应样本的一个维度，共 NNN 维，还有额外的一维常数项，全为 111 （这个地方是为了拟合回归方程中的偏置项，不再详细解释）。解析式推...
复制链接

扫一扫