7、与神经网络学习相关的参数（SGD、adam等）

最新推荐文章于 2024-07-31 14:47:45 发布

UP Lee

最新推荐文章于 2024-07-31 14:47:45 发布

阅读量1.5k

点赞数 1

分类专栏：神经网络文章标签：学习参数 adam SGD

本文链接：https://blog.csdn.net/qq_36327687/article/details/85771804

版权

本文详细介绍了神经网络学习中常用的参数更新方法，包括SGD、Momentum、AdaGrad和Adam。SGD尽管简单但效率较低；Momentum通过引入动量项改善了SGD的路径问题；AdaGrad针对每个参数自适应调整学习率；Adam结合了Momentum和AdaGrad的优势，成为当前主流的选择。此外，还讨论了权重初始值的重要性，特别是在使用不同激活函数时如何选择合适的初始值。

摘要由CSDN通过智能技术生成

1 参数的更新

四种方法：见图

01 随机梯度下降法：SGD

使用参数的梯度，沿着梯度方向更新参数，并且重复这个步骤多次，从而逐渐靠近最优参数，这个过程称为随机梯度下降法

# 源代码

class SGD：

    def _init_(self,lr=0.01):
        self.lr=lr
        
        def update(self,params,grads):  # params，和grads是字典型变量
 # 代码段的update(params,grads),会被反复调用按照params['W1']、grads['W1'], 
#分别保存了权重参数和他们的梯度。
            
            for k inparams.keys():
                params(key)-=self.lr*grads[key]

见图：SGD呈之字形移动，这是一个相当低效的路径。

SGD的缺陷就是，如果函数的形状非均向，比如延伸状，搜索的路径就会非常抵消。

低效率的最根本原因是，梯度的方向没有指向最小的方向。

02 Momentum 方法

Mnmentum是“动量”的意思，和物理有关。