机器学习术语总结-6--个人向

最新推荐文章于 2024-07-11 15:21:16 发布

奋力翻身的咸鱼=_=

最新推荐文章于 2024-07-11 15:21:16 发布

阅读量241

点赞数 1

分类专栏：机器学习文章标签：机器学习深度学习神经网络自适应学习率算法术语

本文链接：https://blog.csdn.net/CSerwangjun/article/details/83743160

版权

机器学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

PS：一只正在学习机器学习的菜鸟。术语组成主要是深度学习（入门圣经）+维基百科+自己的理解。写这个主要是因为在自己学习过程中有一些术语查了又忘，忘了又查。。。所以写篇博客记录一下，也供未来复习检验用。术语不是按学习顺序记录的，涉及到的具体的算法和数学推到请查阅相关书籍。某些部分是基于自己的理解写出来的话，比较通俗易懂，错误的还请大家指正。同时可能会在文末放上自己学习上没弄明白的点和一些需要注意的点，也希望大神能评论指出。
一.术语

1.悬崖结构

多层神经网络通常存在像悬崖一样的斜率较大区域，这是由于几个较大的权重相乘导致的。遇到斜率极大的悬崖结构时，梯度更新会很大程度地改变参数值，通常会完全跳过这类悬崖结构。悬崖结构在循环神经网络的代价函数中很常见，因为这类模型会涉及到多个因子的相乘，其中每个因子对应一个时间步。因此，长期时间序列会产生大量相乘。
2.启发式梯度截断(gradient clipping)

其基本想法源自梯度并没有指明最佳步长，只说明了在无限小区域内的最佳方向。当传统的梯度下降算法提议更新很大一步时，启发式梯度截断会干涉来减小步长，从而使其不太可能走出梯度近似为最陡下降方向的悬崖区域。

3.长期依赖

当计算图变得极深时，神经网络优化算法会面临的另外一个难题就是长期依赖问题——由于变深的结构使模型丧失了学习到先前信息的能力，让优化变得极其困难。

4.随机梯度下降(SGD)

随机梯度下降及其变种很可能是一般机器学习中应用最多的的优化算法，特别是在深度学习中，SGD按照数据生成分布抽取 m 个小批量(独立同分布的)样本，通过计算它们梯度均值，我们可以得到梯度的无偏估计。

5.动量方法

旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。动量的主要目的是解决两个问题:Hessian矩阵的病态条件和随机梯度的方差。

6.破坏对称性

如果具有相同激活函数的两个隐藏单元连接到相同的输入，那么这些单元必须具有不同初始参数。如果它们具有相同的初始参数，然后应用到确定性损失和模型的确定性学习算法将一直以相同的方式更新这两个单元。即使模型或训练算法能够使用随机性为不同的单元计算不同的更新(例如使用 Dropout的训练)，通常来说，最好还是初始化每个单元使其和其他单元计算不同的函数。这或许有助于确保没有输入模式丢失在前向传播的零空间中，没有梯度模式丢失在反向传播的零空间中。每个单元计算不同函数的目标促使了参数的随机初始化。我们可以明确地搜索一大组彼此互不相同的基函数，但这经常会导致明显的计算代价。

7.混沌(chaos)

对于输入中很小的扰动非常敏感，导致确定性前向传播过程表现随机。

8.Delta-bar-delta 算法

是一个早期的在训练时适应模型参数各自学习率的启发式方法。该方法基于一个很简单的想法，如果损失对于某个给定模型参数的偏导保持相同的符号，那么学习率应该增加。如果对于该参数的偏导变化了符号，那么学习率应减小。当然，这种方法只能应用于全批量优化中。

9.AdaGrad算法

独立地适应所有模型参数的学习率，缩放每个参数反比于其所有梯度历史平方值总和的平方根 (Duchi et al., 2011)。具有损失最大偏导的参数相应地有一个快速下降的学习率，而具有小偏导的参数在学习率上有相对较小的下降。净效果是在参数空间中更为平缓的倾斜方向会取得更大的进步。在凸优化背景中，AdaGrad 算法具有一些令人满意的理论性质。然而，经验上已经发现，对于训练深度神经网络模型而言，从训练开始时积累梯度平方会导致有效学习率过早和过量的减小。AdaGrad 在某些深度学习模型上效果不错，但不是全部。

10.RMSProp 算法

修改 AdaGrad 以在非凸设定下效果更好，改变梯度积累为指数加权的移动平均。AdaGrad 旨在应用于凸问题时快速收敛。当应用于非凸函数训练神经网络时，学习轨迹可能穿过了很多不同的结构，最终到达一个局部是凸碗的区域。AdaGrad 根据平方梯度的整个历史收缩学习率，可能使得学习率在达到这样的凸结构前就变得太小了。RMSProp 使用指数衰减平均以丢弃遥远过去的历史，使其能够在找到凸碗状结构后快速收敛，它就像一个初始化于该碗状结构的 AdaGrad 算法实例。

注意：

1.目前，最流行并且使用很高的优化算法包括 SGD、具动量的 SGD、RMSProp、具动量的 RMSProp、AdaDelta 和 Adam。此时，选择哪一个算法似乎主要取决于用者对算法的熟悉程度(以便调节超参数)。

奋力翻身的咸鱼=_=

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习术语总结-6--个人向

PS：一只正在学习机器学习的菜鸟。术语组成主要是深度学习（入门圣经）+维基百科+自己的理解。写这个主要是因为在自己学习过程中有一些术语查了又忘，忘了又查。。。所以写篇博客记录一下，也供未来复习检验用。术语不是按学习顺序记录的，涉及到的具体的算法和数学推到请查阅相关书籍。某些部分是基于自己的理解写出来的话，比较通俗易懂，错误的还请大家指正。同时可能会在文末放上自己学习上没弄明白的点和一些需要注意的点...
复制链接

扫一扫