神经网络的优化算法框架

最新推荐文章于 2024-05-12 09:00:00 发布

凌疯墨子

最新推荐文章于 2024-05-12 09:00:00 发布

阅读量1k

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ANNILingMo/article/details/80310419

版权

本文介绍了神经网络优化算法的通用框架，包括计算梯度、动量和学习率调整等步骤。常见优化算法如SGD、AdaGrad、AdaDelta、Adam和Nadam被详细讲解，其中Adam和Nadam被认为是目前最主流的选择。调参技巧强调理解数据、选择熟悉算法、数据集打散以及监控训练和验证指标的重要性。

摘要由CSDN通过智能技术生成

1、优化算法通用框架

定义; 待优化参数w，目标函数：f(w)，初始学习率 $\alpha$ ，开始进行迭代优化，在每个epoch t 中，一般会有四个步骤：

计算目标函数关于当前参数的梯度： $g t = \nabla f (w t)$ $g_t = \nabla f(w_t)$
根据历史梯度计算第一阶动量和第二阶动量： $m t = ϕ (g 1, g 2, g 3 . . . . ., g t)$ $m_t = \phi(g_1, g_2, g_3 .....,g_t)$ $V t = φ (g 1, g 2, g 3 . . . . ., g t)$ $V_t = \varphi(g_1,g_2,g_3.....,g_t)$
计算当前时刻的下降梯度： $η t + 1 = α \cdot m t / V t - - \sqrt </$

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
神经网络的优化算法框架

1、优化算法通用框架定义; 待优化参数w，目标函数：f(w)，初始学习率αα \alpha ，开始进行迭代优化，在每个epoch t 中，一般会有四个步骤：计算目标函数关于当前参数的梯度：gt=∇f(wt)gt=∇f(wt) g_t = \nabla f(w_t)根据历史梯度计算第一阶动量和第二阶动量：mt=ϕ(g1,g2,g3.....,gt)mt=ϕ(g1,g2,g3.....,...
复制链接

扫一扫

专栏目录

凌疯墨子 CSDN认证博客专家 CSDN认证企业博客

码龄9年

81: 原创

10万+: 周排名

226万+: 总排名

18万+: 访问

: 等级

2130: 积分

47: 粉丝

94: 获赞

17: 评论

271: 收藏

私信

关注

热门文章

分类专栏

最新评论

实体命名识别（NER）任务中加词典
Brave soul: 求分享一下您的代码，学习一下
实体命名识别（NER）任务中加词典
大白ovo: 请问同一个字在不同的句子中特征向量是不同的，这个怎么处理呢
python 实现 trie(字典) 树
Clytze yang: 犇！
pytorch中一些常用方法的总结
weixin_45569077: target.masked_scatter_ have some problems , target should have same shape as mask ,and the number of "1" in mask must equal to the number of element in source
实体命名识别（NER）任务中加词典
Arxan_hjw: 你好，构建N-gram模板的时候遇到词典中的词很长怎么办？假如该词有15个字，而词典中较长的词比较多，不能忽略。这种情况怎么处理呢？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。