学习笔记2-浅谈在线形回归算法下的梯度算法

最新推荐文章于 2022-01-17 18:55:47 发布

不想当韭菜啊！

最新推荐文章于 2022-01-17 18:55:47 发布

阅读量158

点赞数

文章标签：机器学习线性代数矩阵

原文链接：https://www.cnblogs.com/maybe2030/p/5089753.html#_label0

版权

1. 假设模型和损失函数

本文章是基于多元线形回归函数，最终目的是求出各个变量 $x_i$ 对目标值的影响，得到权重矩阵 $\varTheta$ 。

1.1假设模型

设一线形回归函数为：
$h_{\theta}=\varTheta \cdot X^T=\sum_{j=0}^n{\theta _jx_j}$
其中 $X$ , $\varTheta$ 都是 $1\times n$ 的向量， $n$ 表示变量空间 $X$ 的维度。

1.2思路

在训练集 $D=\left\{ \left( X^{\left( i \right)},y_{\theta}^{\left( i \right)} \right) \right\} _{i=1}^{m}$ 中，随机选取（或者指定从某组训练集开始）一组训练值 $\left( X^{\left( i \right)},y_{\theta}^{\left( i \right)} \right)$ ，并初始化 $\varTheta$ 。之后通过不同的思想，带入相应的迭代关系更新 $\varTheta$ ，最终输出在损失函数取最小值时的 $\varTheta$ 。

2.各类梯度下降法

2.1批量梯度下降法BGD

2.1.1损失函数

为使得整体的经验风险最小，在这我把该方程带入平方损失函数得能量函数：
$J\left( \theta \right) =\frac{1}{2m}\sum_{i=1}^m{\left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) ^2}$
这儿的 $m$ 表示样本集的大小，注意与1.1的方程n的区别，并且损失函数是只与 $\varTheta$ 有关的函数，( $x^{\left( i \right)}$ , $y^{\left( i \right)}$ )是已知数据。

2.1.2求梯度以及迭代关系

对损失函数求导，有：
$\frac{\partial J\left( \theta \right)}{\partial \theta _j}=\frac{1}{m}\sum_{i=0}^m{\left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) x_{j}^{\left( i \right)}},j=1,2,...,n$

由此，得到不同的 $\theta _j$ 迭代公式：
$\theta _j:=\theta _j-\alpha \frac{\partial J\left( \theta \right)}{\partial \theta _j},j=1,2,...,n$

' $: =$ '在这表示赋值过程。
对于权重矩阵 $\varTheta$ ，有：
$\varTheta :=\varTheta -\nabla J\left( \theta \right)$
之后反复计算上面的过程，直至 $\nabla J\left( \theta \right)$ 无限接近0，在这可以设置一个阈值，当两次迭代结果只差小于这个阈值可认为达到精度要求，输出 $\varTheta$ 。

优缺点分析：

全局最优解，代码容易实现。
当样本 $m$ 比较大时，计算量会变得非常大。

2.2随机梯度下降法SGD

2.2.1损失函数

对于本问题，损失函数不考虑使得每次迭代在整体都取得最满意的下降路径(即实际梯度)，而是考虑得到在所选数据上的梯度。其关系如下
$J(\theta)=\frac{1}{2}\left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) ^2$

2.1.2求梯度以及迭代关系

求其梯度为：
$\frac{\partial J\left( \theta \right)}{\partial \theta _j}=\left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) x_{j}^{\left( i \right)},j=1,2,...,n$
因此得到 $\varTheta$ 迭代算法:
$\theta _j:=\theta _j-\alpha \frac{\partial J\left( \theta \right)}{\partial \theta _j}=\theta _j-\alpha \left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) x_{j}^{\left( i \right)},j=1,2,...,n$
即：
$\varTheta :=\varTheta -\nabla J\left( \theta \right)$
之后反复计算上面的过程，直至 $\nabla J\left( \theta \right)$ 无限接近0，在这可以设置一个阈值，当两次迭代结果只差小于这个阈值可认为达到精度要求，输出 $\varTheta$ 。

SGD计算的速度会远大于BGD，尤其是训练集 $D$ 很大是时候。但是，容易陷于局部最小值，且精度是低于BGD的。。
因此，通过多次选取不同的初值，对比结果，会在一定程度上优化陷于局部最小值问题。

2.3随机梯度下降法MBGD

该算法是介于SGD和BGD的。在样本 $D$ 中通过选取 $K$ 个数据集，

2.3.1损失函数

对于本问题，损失函数不考虑使得每次迭代在整体都取得最满意的下降路径(即实际梯度)，而是考虑得到在所选数据上的梯度。其关系如下
$J\left( \theta \right) =\frac{1}{2K}\sum_{i=1}^K{\left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) ^2}$

2.3.2求梯度以及迭代关系

求其梯度为：
$\frac{\partial J\left( \theta \right)}{\partial \theta _j}=\frac{1}{K}\sum_{i=0}^K{\left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) x_{j}^{\left( i \right)}},j=1,2,...,n$

由此，得到不同的 $\theta _j$ 迭代公式：
$\theta _j:=\theta _j-\alpha \frac{\partial J\left( \theta \right)}{\partial \theta _j}=\theta _j-\alpha \frac{1}{K}\sum_{i=0}^K{\left( h_{\theta}\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) x_{j}^{\left( i \right)}},j=1,2,...,n$

' $: =$ '在这表示赋值过程。
对于权重矩阵 $\varTheta$ ，有：
$\varTheta :=\varTheta -\nabla J\left( \theta \right)$
同理，不断更新 $\varTheta$ ，从而使损失函数最小。

参考文献：

https://www.cnblogs.com/maybe2030/p/5089753.html#_label0

不想当韭菜啊！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记2-浅谈在线形回归算法下的梯度算法

在之前的博客https://blog.csdn.net/qq_37279306/article/details/105621816中，参考大佬们对梯度算法的数学证明，本文主要目的是为了理清三类梯度算法的关系。参考了其他大佬的博客，在别人的基础上，添加了自己的一些理解，同时优化了数学公式的表达。
复制链接

扫一扫