神经网络参数优化方法

latency_

已于 2022-05-10 20:03:07 修改

阅读量634

点赞数

分类专栏：深度学习文章标签：神经网络深度学习机器学习

于 2022-05-10 19:55:30 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39802199/article/details/124695735

版权

深度学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

梯度下降法

$\begin{align} \theta_{t+1} &= \theta_t + \Delta\theta_t \nonumber \\ &= \theta_t-\alpha g_t \nonumber \end{align}$

优化器

参数变化量	梯度的一阶矩估计	梯度的二阶矩估计	说明
$\Delta\theta_t = -\frac{\alpha}{\sqrt{V_t+\epsilon}} M_t$	$M_t = \Phi(g_1, \cdots,g_t)$	$V_t = \Psi(g_1,\cdots,g_t)$
SGD	$M_t = g_t$	$V_t = 1$	不考虑梯度的二阶矩
Momentum	$M_t = \beta_1g_{t-1} + (1-\beta_1)g_t$	$V_t = 1$	不考虑梯度的二阶矩
AdaGrad	$M_t = g_t$	$V_t = \sum_{i=1}^{t}g_i^2$
RMSProp	$M_t = g_t$	$V_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2$
Adam	$M_t = \beta_1g_{t-1} + (1-\beta_1)g_t$	$V_t = \beta_2 v_{t-1} + (1-\beta_2) g_t^2$	一阶矩和二阶矩都是有偏估计
Adam	$\hat{M}_t = \frac{M_t}{1-\beta_1^t}$	$\hat{V}_t = \frac{V_t}{1-\beta_2^t}$	偏差矫正

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
神经网络参数优化方法

神经网络基于梯度下降的参数优化方法总结
复制链接

扫一扫

专栏目录

latency_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

23: 原创

76万+: 周排名

71万+: 总排名

3万+: 访问

: 等级

336: 积分

9: 粉丝

16: 获赞

4: 评论

110: 收藏

私信

关注

热门文章

分类专栏

最新评论

自监督学习-MoCo-论文笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：Doamin Adaptation——JGSA
Tsinghua_renyi: 大佬是研究DA的吗
自监督学习-MoCo-论文笔记
latency_: 用学生模型做下游任务
自监督学习-MoCo-论文笔记
Benjieming_cui: 请问这里的student model和teacher model（momentum encoder）选哪一个做下游任务呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。