余弦函数导数推导过程_为什么负梯度是函数值减小的最快方向

最新推荐文章于 2021-01-03 08:26:39 发布

weixin_39721370

最新推荐文章于 2021-01-03 08:26:39 发布

阅读量515

点赞数

文章标签：余弦函数导数推导过程多元函数的向量表示梯度下降的超参数大于等于2什么意思

摘要

SGD(Stochastic Gradient Descent, 梯度下降法)是求解最优解问题时常用的优化器, 其核心思想是, 每次迭代时沿着负梯度(梯度的反方向)前进, 经过多次迭代后到达一个较小函数值的参数点处. 为什么是沿着负梯度方向而不是其他的方向进行前进呢? 本文从梯度的数学定义出发来回答这个问题. 本文组织如下:

阐述方向导数的定义;
阐述方向导数与梯度的关系;
为何负梯度是函数值减小的最快方向;
总结.

校对: @王铁柱

方向导数

熟悉微积分的同学都知道, 导数是描述函数随自变量变化快慢的数学定义. 如果此时的函数为多元函数, 该如何描述函数的变化快慢? 设

是定义在

中的多元函数, 其自变量为

, 在其定义域

上, 函数

可以沿任意方向进行运动变化, 而且沿着不同方向通常有不同的变化率, 因此, 在描述多元函数变化快慢时, 我们不仅要描述其变化的大小, 还要描述其变化的方向. 在数学上, 我们有如下定义:

设点

是函数

定义域中的一点,

是一个动点, 向量

是一个非零向量, 其方向与向量

始终保持一致, 用于描述

的方向. 如果以下极限

存在, 我们便称其为函数

在点

沿着方向

的方向导数, 记为

, 它描述的便是函数

在

沿着

变化的快慢. 可能有的同学已经发现了, 这个定义与导数的定义类似, 都是函数的变化量与自变量变化量的比值的极限, 只是在多元函数情况下, 我们还需要指出函数变化时所沿袭的方向. 有了方向导数, 我们就可以来看看函数沿着什么方向变化最快最慢了.

方向导数与梯度的关系

方向导数和我们关心的梯度有什么关系呢? 我们先来回顾梯度的定义: 函数

在点

的梯度为

梯度本身是一个向量, 其每个分量分别描述了函数

沿坐标系的每个数轴的变化率. 而由泰勒展开我们可以得到如下展开式

其中,

是函数

在点

处的梯度. 由泰勒展开式(3)我们可以得到函数

在点

之间的函数变化量与梯度

之间的关系, 我们可由此构造出其方向导数与梯度之间的关系式. 对泰勒展开式(3)两边同时除以

并取极限, 可得

其中,

为函数f在点

处的梯度, 令

, 由(4)可得

为何负梯度是函数值减小的最快方向

由(5)我们可以看出, 函数在点

处的沿方向

的方向导数, 等于函数在该点处的梯度对方向

上的单位向量的投影

. 为了使这个结论更加清晰, 我们对(5)做进一步解析. 我们令

, 这被称为方向余弦, 可以用此单位向量来进行方向的描述, 显然有

. 则(5)可进一步表示成如下

由向量內积公式, 可得

由Schwarz公式和(7), 可得

所以, 函数在点

处的最大方向导数是该点处的梯度, 即沿着梯度方向前进, 函数增长速率是最大的, 其速率为

而当方向导数正好与梯度反向时, 即

, 则函数增加速率最小, 其速率为

综上, 我们可以得出负梯度是函数值减小的最快方向, 其大小为(10)所示.

值得注意的是, 那些与梯度(负梯度)垂直的方向导数, 即

, 函数沿着此类方向导数前进时不会发生变化, 而沿着此类方向导数前进便会形成等高线, 这也是为什么描述梯度的图像中, 梯度(负梯度)是与函数等高线垂直的.

梯度与等高线垂直图

总结

SGD使用负梯度作为目标函数更新时的方向, 可在某一点处达到函数值下降最快的目的. 使用负梯度作为优化信息的算法有一个大类, 但基本的思想都是围绕着更加合理地利用负梯度信息进行展开.

引用

[1] "方向导数, 梯度". 复旦大学, 2019. http://math.fudan.edu.cn/gdsx/KEJIAN/%E6%96%B9%E5%90%91%E5%AF%BC%E6%95%B0%E5%92%8C%E6%A2%AF%E5%BA%A6.pdf

[2] Wikipedia contributors, "Gradient,"Wikipedia, The Free Encyclopedia,https://en.wikipedia.org/w/index.php?title=Gradient&oldid=884452517(accessed February 25, 2019)

weixin_39721370

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
余弦函数导数推导过程_为什么负梯度是函数值减小的最快方向

摘要SGD(Stochastic Gradient Descent, 梯度下降法)是求解最优解问题时常用的优化器, 其核心思想是, 每次迭代时沿着负梯度(梯度的反方向)前进, 经过多次迭代后到达一个较小函数值的参数点处. 为什么是沿着负梯度方向而不是其他的方向进行前进呢? 本文从梯度的数学定义出发来回答这个问题. 本文组织如下:阐述方向导数的定义;阐述方向导数与梯度的关系;为何负梯度是函数值减小的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。