深度学习常见的优化器

最新推荐文章于 2024-06-08 09:29:07 发布

静候1202

最新推荐文章于 2024-06-08 09:29:07 发布

阅读量723

点赞数

文章标签：算法机器学习人工智能深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41986795/article/details/107460379

版权

模型性能不好，可能存在的问题：
（1）模型设计
（2）优化算法的问题
（3）过拟合
机器学习几乎所有的算法都要利用损失函数来检验算法模型的优劣，同时利用损失函数来提升算法模型，这个提升过程叫做优化 （Optimizer）。
优化器定义了改变权重和偏置的方法
优化过程就是优化代价函数：
在这里插入图片描述
（1）Adagrad、RMSprop、Adam等算法都是建立在偏导数之上的，他们并不关心上式中N的取值，N取1，取100，还是取N，Adagrad、RMSprop、Adam等算法都可以运行。
（2）而随机梯度下降法（Stochastic Gradient Descent，SGD），批量梯度下降法（Batch Gradient Descent，BGD），小批量梯度下降法（Mini-batch Gradient Descent，Mini-batchGD）则是研究这里的N的大小的。

优化方法

批量梯度下降
小批量梯度下降
随机梯度下降
动量梯度下降
- 指数加权平均
- 动量梯度下降
RMSprop算法
Adam

批量梯度下降

一次迭代用所有样本的梯度
做法：每一步梯度下降法需要对整个训练集进行一次处理，求训练集的所有样本的平均梯度作为整个数据集的梯度，进而更新权重。
优点：全数据集的梯度平均值能够更好的代表样本总体
缺点：
（1）如果训练数据集很大的时候，处理速度就会比较慢。
（2）你的数据集非常的大（现在很常见），根本没法全部塞到内存（显存），大样本就不能用这种方法

小批量梯度下降

一次迭代用这一batch的样本梯度

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习常见的优化器

模型性能不好，可能存在的问题：（1）模型设计（2）优化算法的问题（3）过拟合机器学习几乎所有的算法都要利用损失函数来检验算法模型的优劣，同时利用损失函数来提升算法模型，这个提升过程叫做优化（Optimizer）。优化器定义了改变权重和偏置的方法优化过程就是优化代价函数：（1）Adagrad、RMSprop、Adam等算法都是建立在偏导数之上的，他们并不关心上式中N的取值，N取1，取100，还是取N，Adagrad、RMSprop、Adam等算法都可以运行。（2）而随机梯度下降法（Stoc
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。