深度学习优化方法

最新推荐文章于 2023-12-27 17:57:49 发布

Swayzzu

最新推荐文章于 2023-12-27 17:57:49 发布

阅读量215

点赞数

分类专栏：深度学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Swayzzu/article/details/120953400

版权

深度学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

目录

1.SGD

随机梯度下降

随机梯度下降和其他的梯度下降主要区别，在于SGD每次只使用一个数据样本，去计算损失函数，求梯度，更新参数。这种方法的计算速度快，但是下降的速度慢，可能会在最低处两边震荡，停留在局部最优。

2.SGDM

SGM with Momentum：动量梯度下降

动量梯度下降，在进行参数更新之前，会对之前的梯度信息，进行指数加权平均，然后使用加权平均之后的梯度，来代替原梯度，进行参数的更新。如此，更新的时候，都会包含之前的梯度信息。

计算的时候，会在加权平均的梯度上加上一个beta参数，原梯度加上1-beta，二者之和就是用于进行参数更新的动量梯度。

由于有之前的梯度信息，因此该方法相当于对梯度下降加入了一个惯性。如果前面的是下降，那么此处会下降更快，如果突然接触到了最低点，也会因为有动量，而再往前走走。也就是说当前的方向，由此前积累的方向，和现在的梯度方向共同决定。因此，训练过程的震荡幅度会变小，速度变快。

SGDM速度没Adam快，但泛化能力好。

3.Adam

Adam是一种在深度学习模型中用来替代随机梯度下降的优化算法

它是SGDM和RMSProp算法的结合，训练速度快，泛化能力不太行。

4.Adagrad

Adaptive Gradient自适应步长

该方法为现在的梯度*步长添加了一个系数：1/（历史梯度的平方和，再开根号）

在数据分布稀疏的时候，能更好地利用稀疏梯度的信息，比标准的SGD更有效地收敛。

5.RMSProp

梯度平方根root mean square prop

该方法和Adagrad的区别就是分母不一样，使得系数不会因为前几步的梯度太大而导致分母太大，从而导致系数变得太小而走不动了。类似于Momentum的计算方式。

6.NAG

Nesterov Accelerated Gradient，是在SGD和SGDM的基础上的改进，在SGDM中，采用的梯度方向，是由当前的梯度方向，以及前面累积的梯度方向共同决定，但在NAG中，是先使用累积的动量计算一次，得到下一次的梯度方向，再把下一个点的梯度方向，与历史累积动量相结合，计算现在这个时刻的累计动量。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习优化方法

gradient decentSGDSGDM----SGM with MomentumAdagradRMSPROPADAM
复制链接

扫一扫

专栏目录

Swayzzu CSDN认证博客专家 CSDN认证企业博客

码龄3年

103: 原创

31万+: 周排名

96万+: 总排名

12万+: 访问

: 等级

1140: 积分

28: 粉丝

58: 获赞

37: 评论

420: 收藏

私信

关注

热门文章

分类专栏

CV 18篇
NLP 32篇
知识图谱 1篇
机器学习基础 10篇
深度学习 26篇
数据结构笔记 7篇
opencv 3篇
MySQL 4篇
Linux 3篇

最新评论

PyTorch自建数据集+可视化结果
Swayzzu: 你调试一下，打断点到这个位置看看，意思是这个地方应该是一个可迭代的对象（比如list类型之类的），但发现这个对象是个None，没法迭代
PyTorch自建数据集+可视化结果
学习成长记: 我在进行数据集导入时，出现错误：TypeError Traceback (most recent call last) Cell In[7], line 1 ----> 1 train_dataset = InfrasoundDataset('dataset',256, 'train') 2 val_dataset = InfrasoundDataset('dataset',256, 'val') 3 test_dataset = InfrasoundDataset('dataset',256, 'test') Cell In[6], line 15, in InfrasoundDataset.__init__(self, root, resize, mode) 12 self.name2label[name] = len(self.name2label.keys()) 13 # print(self.name2label) 14 # 加载或创建CSV文件并存储数据 ---> 15 self.images, self.labels = self.load_csv('Raw_TIFs.csv') 17 # 取train, val, test数据集 18 if mode=='train': TypeError: cannot unpack non-iterable NoneType object。请问这个是为什么？
KBQA-Bert学习记录-CRF模型
Swayzzu: 建议调试检查下维度吧，看看是哪一行报的，然后断点打到那行，看看维度最后一个是不是10，代码预期是5
KBQA-Bert学习记录-CRF模型
qq_54412326: ValueError: expected last dimension of emissions is 5, got 10大佬，报错这个想问一下时什么问题呢
时间复杂度-主定理分析
狼堡你灰叔371: 虽然不太专业但是做题的话真是个小妙招给你点赞

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。