通俗解释EMA

最新推荐文章于 2025-04-08 20:28:09 发布

Paul-LangJun

最新推荐文章于 2025-04-08 20:28:09 发布

阅读量1.4w

点赞数 4

分类专栏：最优化方法概率与统计文章标签：指数移动平均深度学习优化算法训练稳定性自适应优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gaoxueyi551/article/details/125410840

版权

概率与统计同时被 2 个专栏收录

21 篇文章

订阅专栏

最优化方法

4 篇文章

订阅专栏

一、概念

EMA，全称是指数移动平均，是一种给予近期数据更高权重的平均方法，详细的介绍可以参考：深度学习：指数加权平均。

二、在哪见过

深度学习中常见的Adam、RMSProp和Momentum等优化算法内部都使用了EMA，由于使用了EMA这些算法常被称为自适应优化算法，可以随着训练过程的推移，自适应的调整参数的优化方向和步长，可以参考：深度学习中的Momentum算法原理。

三、提高训练稳定性

假设有一个模型参数 $\theta$ ，EMA在优化器层面是一种局部时间窗口的加权平均，它只能通过对过去一个小的时间窗口内的梯度做加权并更新模型参数 $\theta$ ，如下图所示的三个矩形框所示，每次反向传播之后，参数 $\theta$ 的增量是一个加权平均后的梯度，模型参数每次都会更新（设g1，g2，g3是三次迭代通过EMA计算得到的梯度，每个箭头表示进行一次梯度更新）。

如果进一步对g1，g2和g3进行一次EMA，并将EMA后的结果对参数 $\theta$ 进行更新，那么参数 $\theta$ 将会综合多个时间步的梯度信息，相当于进行了细粒度的平均，多个时间步的梯度综合了更加可靠的信息，模型训练的相应也会更加稳定。

四、参考

博客等级

码龄13年

161
原创

380
点赞

1322
收藏

155
粉丝

关注

私信

热门文章

分类专栏

c
java 31篇
c++ 14篇
数据结构与算法 45篇
重构 2篇
数据库 5篇
android 8篇
设计模式 6篇
面向对象 14篇
多线程 16篇
think in life
Linux 11篇
机器学习 35篇
概率与统计 21篇
神经网络 45篇
Python 18篇
大数据 3篇
分布式 6篇
爬虫 1篇
正则表达式 1篇
线性代数 7篇
最优化方法 4篇
前端技术

最新评论

java中共享内存的实现
Paul-LangJun: 学习了，确实这块学习的不是很透彻
java中共享内存的实现
多冷啊、我在东北玩泥巴: 在linux中文件要写到/dev/shm才是真正的共享内存，或者你自己挂载一部分内存到其他目录，并且告知其他进程使用同一目录作为共享内存的存放目录，c语言在linux系统实现的shm方法的实现就是写到/dev/shm下，包括很多库都是从在这个目录实现共享内存，因为这个linux默认挂载的，你这种方式如果写到普通磁盘目录只是实现了文件的随机读写
理解KKT条件
海蓝菌: 解释的很清晰呀学到了
矩阵乘法的优化
m0_65000939: 分块那个不太对，如果说不是恰好分成块，有剩余的话，后面那部分算剩余的没算完全。
深度学习中的He初始化
Paul-LangJun: y = wx, 相当于多个均值为0的对称分布的加权，其最终的变量y的分布也是均值为0的对称分布，可以搜下概率轮方面的材料

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。