02 优化算法+ 激活函数 & BP算法公式+问题理解

喽哥

已于 2023-09-15 14:19:40 修改

阅读量178

点赞数

文章标签：算法人工智能机器学习

于 2023-09-14 18:39:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SKIp121whats112/article/details/132888227

版权

02 优化算法 & BP算法公式+问题理解

01 经典的优化算法
02 常用激活函数
03 BP 算法公式推导+结论记忆
04 为何会出现梯度爆炸或者梯度消失
05 从BP推导公式入手得到梯度消失或者爆炸的解决方案

01 经典的优化算法

1 批量梯度下降算法 BGD
每次是使用所有样本进行更新，如果样本数目大，训练速度比较缓慢

2 随机梯度下降算法SGD
特点：每次都随即使用随机使用单个样本来更新整个模型参数
缺点：单个数据更新导致训练波动大，收敛不稳定

3 mini-batch GD gradient disent
每次都随机选择一定批次大小的数据进行梯度过
优点：提高了训练速效率，和收敛速度

4 动量法 Momentum 动量梯度下降法
用于解决梯度下降算法中的收敛速度慢，陷入局部最小值的问题
引入了一个动量概念，暂且用v表示，其中μ表示动量系数，α表示学习率
v = μ*v - αΔL
θ = θ + v 梯度更新，加上负梯度，最小化损失函数

5 AdaGrad 自适应梯度算法
通过自动地调整每个参数的学习率
对于梯度小或稀疏特征，此时学习率就会比较大，对于梯度大的特征此时学习率会比较小
AdaGrad算法维护一个累积梯度平方和的变量，用于调整学习率的大小
G = G + ΔL²
θ = θ - （μ/ 根号 G + ε）ΔL μ全局学习率，用户指定
缺点：由于平方项积累，学习率可能会过早的缩减到很小

6 RMSProp 算法
在AdaGrad 自适应梯度算法的

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
02 优化算法+ 激活函数 & BP算法公式+问题理解

g = ΔL，初始 s r 均为 0，一阶，二阶指代损失函数的一阶偏导，二阶偏导。对于梯度小或稀疏特征，此时学习率就会比较大，对于梯度大的特征此时学习率会比较小。θ = θ - （μ/ 根号 G + ε）ΔL μ全局学习率，用户指定。引入了一个动量概念，暂且用v表示，其中μ表示动量系数，α表示学习率。理解概念，优化算法与梯度下降算法，梯度下降算法只是优化算法中的一种。收敛更稳定，收敛速度更快(小梯度参数加速，大梯度参数，减慢收敛)θ = θ + v 梯度更新，加上负梯度，最小化损失函数。
复制链接

扫一扫

喽哥

CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

106万+: 周排名

31万+: 总排名

2万+: 访问

: 等级

179: 积分

10: 粉丝

42: 获赞

6: 评论

231: 收藏

私信

关注

热门文章

分类专栏

最新评论

02 优化算法+ 激活函数 & BP算法公式+问题理解
CSDN-Ada助手: 恭喜您撰写了第9篇博客！阅读了您的文章后，我对激活函数和BP算法有了更深入的理解，非常感谢您的分享。您对这些概念的解释非常清晰，让我能够更好地掌握它们。在下一步的创作中，我建议您可以进一步探讨激活函数和BP算法在实际问题中的应用。您可以结合具体的案例，分享一些实际的挑战和解决方案，这将为读者提供更多有用的信息。再次感谢您的努力和分享，期待您的下一篇博客！
机器学习之KNN算法原理
sinat_41869090: 可以转载吗
sklearn之决策树参数详解
绝无仅有小福贝: 很清晰
机器学习之线性回归原理
chaidada8: 喽哥6啊
sklearn之决策树参数详解
Luc_CSDN: 表示感谢!

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。