使用梯度下降求解最小二乘

最新推荐文章于 2022-12-26 10:30:00 发布

pp菌

最新推荐文章于 2022-12-26 10:30:00 发布

阅读量1.5k

点赞数 4

分类专栏：机器学习基础文章标签：线性代数

本文链接：https://blog.csdn.net/weixin_36600799/article/details/89528156

版权

本文介绍了使用梯度下降法解决最小二乘问题的原理和步骤，包括损失函数的定义、梯度下降算法的迭代过程，以及在大样本情况下的随机梯度下降。并提供了一个简单的Python代码示例，用于拟合伪造数据。

摘要由CSDN通过智能技术生成

使用梯度下降求解最小二乘

简介

在前一篇的总结中，从矩阵的视角回顾了最小二乘，最终还得到了如下求解最小二乘的解的方程：
$(W^{T}W)^{-1}W^{T}y \tag{1}$
这个方程本身没有什么问题，只不过也有其局限性，当数据量很大的时候， $W$ 也会很大，求解 $W^{T}W$ 本质上是一个不太现实的事情。如果只有1000个样本，那么最终需要求解 $1000 \times 1000$ 的矩阵的逆，如果样本有1000个，那么就得求解 $10000 \times 10000$ 的矩阵的逆了，对于方阵来说，求解逆矩阵本身就是一个开销比较大的事情，而且，随着矩阵的增大，逆矩阵究竟是否存在都是一个不好说的事情，假如说逆不存在，那么显然这个方法是行不通的了。在前边对于实对称矩阵的总结中说道，实对称矩阵总是可以找到 $n$ 个标准正交的特征向量，但是也没有说就是一定是满秩的，所以逆矩阵不存在还是很有可能的，而且前边的等式本来就是 $W^{T}Wx = W^{T}y \tag{2}$ 而已，所以如果逆矩阵确实不存在，那么也就只能使用等式2来求解了。虽然等式2不是见得有好的实现方法。
在数值计算领域，函数拟合，数据拟合任务，一般都会采用梯度下降算法进行求解，而如果数据量过大，不适合全量梯度下降，也可以使用随机梯度下降算法进行求解。可以说，梯度下降，真是一个万金油方法了。这篇总结文章中，会给出梯度下降求解最小二乘的一个Python实现，同时，给出梯度下降的简易实现和说明。

梯度下降算法步骤说明

在进一步之前，我们先换一种表达方式，前边等式的表达方式换成下边的形式：
$\tag{3}$ 这个时候， $X$ 矩阵是输入样本矩阵，每一个行向量表示样本，假设每一个样本有 $n$ 个纬度，而且共有 $m$ 个样本，那么 $X$ 就是一个 $\times n$ 的矩阵了，而需要学习的 $w$ 权重向量则是一个具有 $n$ 个代估参数的列向量，可以定义 $w_{i}$ 是 $w$ 的第 $i$ 个参数，而 $y$ 是结果，纬度是 $m$ 。
梯度下降算法需要定义损失函数，对于最小二乘而言，其实损失函数就是：
$\frac{1}{m}\sum_{i=1}^{m}(y'_{i} - y)^{2} \tag{4}$