【caffe 深度学习】3.各类优化器介绍

最新推荐文章于 2024-04-03 18:34:38 发布

被月亮晒黑_

最新推荐文章于 2024-04-03 18:34:38 发布

阅读量1.3k

点赞数

分类专栏： caffe 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40314507/article/details/79933289

版权

本文介绍了深度学习中常见的优化器，包括SGD、Momentum、AdaGrad、Adam和NAG等，分析了它们的优缺点和应用场景。优化器的选择对模型训练至关重要，例如，Adam通常被视为默认选择，而SGD可能会陷入鞍点。

摘要由CSDN通过智能技术生成

目录

1.主要优化器：

2.各种优化器对比：

2.5NAG（Nesterov accelerated gradient）：

3.各种优化器表现

4.优化器选择

1.主要优化器：

tf.train.GradientDescentOptimizer

tf.train.AdadeltaOptimizer

tf.train.AdagradOptimizer

tf.train.AdagradDAOptimizer

tf.train.MomentumOptimizer

tf.train.AdamOptimizer

tf.train.FtrlOptimizer

tf.train.ProximalGradientDescentOptimizer

tf.train.ProximalAdagradOptimizer

tf.train.RMSPropOptimizer

2.各种优化器对比：

（1）标准梯度下降法：

标准梯度下降先计算所有样本汇总误差，然后根据总误差来更新权值（可能费时比较严重）

（2）随机梯度下降法：

随机梯度下降法随机抽取一个样本来计算误差，然后更新权值(所以权值更新的方向不保证正确）

批量梯度下降法：

（3）批量梯度下降法是一个比较折中的方案，从总样本中抽取一定的批次（比如一共有10000个样本，随机抽取100个样本作为一个batch），然后计算这个batch的总误差，根据总误差来更新权值。

W：要训练的参数
L：代价函数
η：学习率

2.1SGD：

SGD缺点：

1.如果函数的形状非均向，比如呈延伸状，搜索的路径就会非常低效，比如呈“之字形”，它低效的根本原因是梯度的方向没有指向最小值方向。

2.不能逃离鞍点问题、峡谷问题。

2.2Momentum：

gt为当前估计的梯度。这里出现了一个新的变量v,对应于物理上的速度，上面第一个式子表示了物体在梯度上受力，在力的作用下物体速度增加这一物理法则。

当前权值的改变会受到上一次权值改变的影响，类似于小球向下滚动的时候带上了惯性。这样可以加快小球的向下的速度。

优点：

（1）与SGD方法相比，动量方法的收敛速度更快，收敛曲线也更稳定。如图所示：

最低0.47元/天解锁文章

被月亮晒黑_

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

被月亮晒黑_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

118: 原创

30万+: 周排名

178万+: 总排名

11万+: 访问

: 等级

2283: 积分

92: 粉丝

53: 获赞

30: 评论

363: 收藏

私信

关注

热门文章

分类专栏

图像处理 10篇
Linux操作系统 7篇
python 17篇
机器学习 19篇
深度学习 39篇
caffe 13篇
tensorflow 10篇
LeetCode 23篇
C++ 19篇
控制 1篇
CS231n 6篇
算法实践 7篇
MySQL 5篇
数据科学 11篇
PyTorch 7篇
爬虫 6篇
目标检测 3篇

最新评论

【PyTorch 深度学习】5.PyTorch实现L1，L2正则化以及Dropout
zhuᴗu: 请问reg_loss参数应用在代码的什么地方呢？
【PyTorch 深度学习】5.PyTorch实现L1，L2正则化以及Dropout
sakularia: model = module_net(8,10,1).to(device)，8,10,1，是什么意思
【PyTorch 深度学习】5.PyTorch实现L1，L2正则化以及Dropout
Tisfy: 写文章不易，继续加油
【caffe 深度学习】13.deeplabv2操作
qq_42331243: 请问，准备数据这款儿，我执行convert_label.py文件的时候， (base) liuzd@Ti-Two:/data6/liuzd/deeplab/DL_dataset/VOC12_orig$ python convert_labels.py /data6/liuzd/deeplab/DL_dataset/VOC12_orig/SegmentationClass /data6/liuzd/deeplab/DL_dataset/VOC12_orig/ImageSets/Segmentation/trainval.txt /data6/liuzd/deeplab/DL_dataset/VOC12_orig/SegmentationClass_1D/ Traceback (most recent call last): File "convert_labels.py", line 62, in <module> main() File "convert_labels.py", line 28, in main img_name = os.path.join(path, img_base_name) + ext File "/home/liuzd/anaconda3/lib/python3.8/posixpath.py", line 90, in join genericpath._check_arg_types('join', a, *p) File "/home/liuzd/anaconda3/lib/python3.8/genericpath.py", line 155, in _check_arg_types raise TypeError("Can't mix strings and bytes in path components") from None TypeError: Can't mix strings and bytes in path components 这咋解决呀，博主捞捞我！！！！！！
【caffe 深度学习】9.迁移学习和Snapshot使用
咪咕班克斯: 牛

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。