梯度下降算法及其改进

最新推荐文章于 2023-01-14 19:42:16 发布

鹿与狼

最新推荐文章于 2023-01-14 19:42:16 发布

阅读量836

点赞数

文章标签：深度学习数学基础梯度下降

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36370187/article/details/103083132

版权

1.梯度和梯度值

一个函数f(x,y,z)，求其在x,y,z上的偏导 $\frac{\partial f}{\partial x},\frac{\partial f}{\partial y},\frac{\partial f}{\partial z}$ ，比如要求其在M(a,b,c)上的梯度，则将a,b,c带入（ $\frac{\partial f}{\partial x},\frac{\partial f}{\partial y},\frac{\partial f}{\partial z}$ ）中，可以得到一个新的向量（A,B,C），那么这个新的向量就是梯度。梯度值就是这个向量的模，即 $\sqrt{A^{2}+B^{2}+C^{2}}$ 。

2.梯度下降算法

给定 $f(x)$ 和初始点 $x_{0}$

重复执行以下过程直到满足条件

$\Delta x_{t}=-\bigtriangledown f(x_{t})$ 这里的 $\bigtriangledown f(x_{t})$ 就是求 $x_{t}$ 的梯度

$x_{t+1}=xt+\eta \Delta x_{t}$ $\eta$ 是学习率

普通梯度下降容易陷入局部最优，所以需要改进。

3.基于冲量的梯度下降算法

冲量其实叫动量更合适，加了一个冲量，也许可以冲出局部最优点。

给定 $f(x)$ 、初始点 $x_{0}$ 和初始动量 $v_{0}$

重复执行以下过程直到满足条件

$\Delta x_{t}=-\bigtriangledown f(x_{t})$ 这里的 $\bigtriangledown f(x_{t})$ 就是求 $x_{t}$ 的梯度

$v_{t+1}=\gamma v_{t}+\eta \Delta x_{t}$ 其实就是在这里加了一个动量

$x_{t+1}=xt+v_{t}$

4.NAG改进

这个是对基于冲量的梯度下降的改进算法。在基本梯度下降和冲量梯度下降中，都是在 $x_{t}$ 处计算梯度，要是我们能够在 $x_{t}$ 附近探索一下，找到一个好一点的新的点计算梯度，会更好吧？所以NAG改进就是基于这个思路来的。

给定 $f(x)$ 、初始点 $x_{0}$ 和初始动量 $v_{0}$

重复执行以下过程直到满足条件

$\Delta x_{t}=-\bigtriangledown f(x_{t}+\gamma v_{t})$ 这里的 $\bigtriangledown f(x_{t})$ 就是求 $x_{t}$ 的梯度

$v_{t+1}=\gamma v_{t}+\eta \Delta x_{t}$ 其实就是在这里加了一个动量

$x_{t+1}=xt+v_{t}$

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
梯度下降算法及其改进

1.梯度和梯度值一个函数f(x,y,z)，求其在x,y,z上的偏导，比如要求其在M(a,b,c)上的梯度，则将a,b,c带入（）中，可以得到一个新的向量（A,B,C），那么这个新的向量就是梯度。梯度值就是这个向量的模，即。2.梯度下降算法给定和初始点重复执行以下过程直到满足条件这里的就是求的梯度是学习率普通梯度下降容易陷入局部最优，所以需要改...
复制链接

扫一扫

鹿与狼 CSDN认证博客专家 CSDN认证企业博客

码龄8年

100: 原创

6万+: 周排名

97万+: 总排名

17万+: 访问

: 等级

1939: 积分

25: 粉丝

82: 获赞

26: 评论

340: 收藏

私信

关注

分类专栏

Java虚拟机 19篇
MyBatis 7篇

最新评论

JVM系列（十六）：Class文件结构
hao9e: 引用「结果：」这个结果不对吧，我本地试了一下是10,30,20。而且这里面打印了两个Son.x
JVM系列（二）：类加载子系统
hao9e: 引用「类常量（static final）在编译时将其要赋予的值存储在常量池中，在准备阶段将常量值指定为常量」这里面的"常量值"指的是什么？我看第四章也有提到。我看作者的意思是常量池中的"常量值"和"常量池中存储的值"是同一个意思。但是我理解的是元空间里面类中该字段所对应的元数据。
JVM系列（三）：程序计数器（PC寄存器）
hao9e: 引用「为什么使用PC寄存器记录当前线程执行地址」这里应该是指令寄存器(IR)存放的当前的执行地址吧？参阅资料如下：CPU中有若干寄存器，保存当前正在执行的指令的寄存器为指令寄存器IR，保存下一条指令地址的寄存器为程序计数器PC，用于存放存储器中数据和指令地址的寄存器是地址寄存器，存数据和指令的寄存器是数据寄存器
JVM系列（三）：程序计数器（PC寄存器）
hao9e: 引用「程序计数器里面记录的是当前线程正在执行的那一条字节码执行的地址。」这里其他文章都说是下一条jvm指令
pytorch函数中的dilation参数的作用
Coding-Prince: 膨胀卷积

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。