梯度下降法的原理

Rainylt

已于 2022-05-04 23:49:41 修改

阅读量473

点赞数

分类专栏： CV 文章标签：计算机视觉人工智能

于 2022-05-04 23:20:53 首次发布

本文链接：https://blog.csdn.net/lt1103725556/article/details/124579753

版权

CV 专栏收录该内容

12 篇文章 1 订阅

订阅专栏

之前一直就只知道朝着负梯度的方向走就能降Loss，却不知道是为什么，今天看了人工智能的课才明白了。

首先假设损失函数 $f (x)$ ，下一步 $x$ 的移动方向与距离 $\Delta{x}$ ，则有移动后的损失 $f(x+\Delta{x})$ ，我们来思考怎样能让损失降低，也就是使得 $f(x+\Delta{x})<f(x)$

首先对 $f(x+\Delta{x})$ 泰勒展开：
在这里插入图片描述
将 $f (x)$ 移到左边可得：

其中， $\nabla{f(x)}$ 为 $f (x)$ 的一阶导数
其中，左边也就是移动前后的损失差值

目标是使得差值为负，且尽可能小，也就是损失下降得越多越好
也即希望右边 $< 0$ ，且越小越好
我们看右边：
两个向量相乘=模相乘* $cos\theta$
在这里插入图片描述
所以 $\mathop{\arg\min}\limits_{\Delta{x}}f(x+\Delta{x})-f(x)=\mathop{\arg\min}\limits_{\Delta{x}}\left \| \nabla{f(x)} \right \|\left \| \Delta{x} \right \|cos\theta$
其中，模必 $> = 0$ ，因此，为了使其为负且最小化， $cos\theta$ 为负且最小，而 $cos\theta$ 就是参数变化的方向( $\Delta{x}$ 和梯度 $\nabla{f(x)}$ 方向的夹角)。

要使得 $cos\theta$ 为负且最小，即当 $\theta=\pi$ 时，取最小值 $cos\pi=-1$

即当 $\Delta{x}$ 与 $\nabla{f(x)}$ 的夹角为 $\pi$ ，即取负梯度方向时，右边能取到最小值。

最终，

$\left \| \Delta{x} \right \|$ 是一个标量，x移动的大小，我们可以看成学习率 $\alpha$ ，最终，上式变为：
在这里插入图片描述
也就是说，取梯度的负方向，再根据学习率调整步长，就能降低损失

Rainylt

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度下降法的原理

之前一直就只知道朝着负梯度的方向走就能降Loss，却不知道是为什么，今天看了人工智能的课才明白了。首先假设损失函数f(x)f(x)f(x)，下一步xxx的移动方向与距离Δx\Delta{x}Δx，则有移动后的损失f(x+Δx)f(x+\Delta{x})f(x+Δx)，我们来思考怎样能让损失降低，也就是使得f(x+Δx)<f(x)f(x+\Delta{x})<f(x)f(x+Δx)<f(x)首先对f(x+Δx)f(x+\Delta{x})f(x+Δx)泰勒展开：将f(x)f(x)f
复制链接

扫一扫

专栏目录