机器学习术语总结-5--个人向

PS:一只正在学习机器学习的菜鸟。术语组成主要是深度学习(入门圣经)+维基百科+自己的理解。写这个主要是因为在自己学习过程中有一些术语查了又忘,忘了又查。。。所以写篇博客记录一下,术语不是按学习顺序记录的。都是基于自己的理解写出来的话,比较通俗易懂,错误的还请大家指正。同时会在文末放上自己学习上没弄明白的点,也希望大神能评论指出。
一.术语

1.多任务学习

多任务学习 (Caruana, 1993) 是通过合并几个任务中的样例(可以视为对参数 施加的软约束)来提高泛化的一种方式。额外的训练样本以同样的方式将模型的参数推向泛化更好的方向,当模型的一部分在任务之间共享时,模型的这一部分更多地被约束为良好的值(假设共享是合理的),往往能更好地泛化。

该模型通常可以分为两类相关的参数:

<1. 具体任务的参数(只能从各自任务的样本中实现良好的泛化)。

<2. 所有任务共享的通用参数(从所有任务的汇集数据中获益)。 因为共享参数,其统计强度可大大提高(共享参数的样本数量相对于单任务模式增加的比例),并能改善泛化和泛化误差的范围 (Baxter, 1995)。当然,仅当不同的任务之间存在某些统计关系的假设是合理(意味着某些参数能通过不同任务共享) 时才会发生这种情况。

2.提前终止(early stopping)

当训练有足够的表示能力甚至会过拟合的大模型时,我们经常观察到,训练误差会随着时间的推移逐渐降低但验证集的误差会再次上升,这种现象几乎一定会出现。这意味着如果我们返回使验证集误差最低的参数设置,就可以获得更好的模型 (因此,有希望获得更好的测试误差)。在每次验证集误差有所改善后,我们存储模型参数的副本。当训练算法终止时,我们返回这些参数而不是最新的参数。当验证 集上的误差在事先指定的循环次数内没有进一步改善时,算法就会终止。这种策略被称为提前终止。这可能是深度学习中最常用的正 则化形式。它的流行主要是因为有效性和简单性。

3.参数共享(parameter sharing)

参数范数惩罚是正则化参数使其彼此接近的一种方式,而更流行的方法是使用 约束:强迫某些参数相等。由于我们将各种模型或模型组件解释为共享唯一的一组 参数,这种正则化方法通常被称为 参数共享。和正则化参数使 其接近(通过范数惩罚)相比,参数共享的一个显著优点是,只有参数(唯一一个集 合)的子集需要被存储在内存中。对于某些特定模型,如卷积神经网络,这可能可 以显著减少模型所占用的内存。

4.Bagging(bootstrap aggregating)

是通过结合几个模型降低泛化误差的技术 (Breiman, 1994)。主要想法是分别训练几个不同的模型,然后让所有模型表决测 试样例的输出。

5.Boosting(Boosting)

 构建比单个模型容量更高的集成模型。通过向集成逐步添加神经网络,Boosting已经被应用于构建神经网络的集成(Schwenk and Bengio, 1998)。通过逐渐增加神经网络的隐藏单元, Boosting也可以将单个神经网络解释为一个集。

6.Dropout(Dropout)

提供了正则化一大类模型的方 法,计算方便但功能强大。在第一种近似下,Dropout可以被认为是集成大量深层神 经网络的实用Bagging方法。Bagging涉及训练多个模型,并在每个测试样本上评估 多个模型。当每个模型都是一个很大的神经网络时,这似乎是不切实际的,因为训 练和评估这样的网络需要花费很多运行时间和内存。通常我们只能集成五至十个神 经网络,Dropout提供了一种廉价的Bagging集成近似,能够训练和 评估指数级数量的神经网络。具体而言,Dropout训练的集成包括所有从基础网络除去非输出单元后形成的子网络。最先进的神经网络基于一系列仿射变换和非线性变换,我们只需将一些单元的输出乘零就能有效地删除一个单元。这个过程需要对模型(如径向基函数网络,单元的状态和参考值之间存在一定区别)进行一些修改。

7.切面距离

它是一种非参数的最近邻算法,其中使用的度量不是通用的欧几里德距离,而是根据邻近流形关于聚集概率的知识导出的。这个算法假设我们尝试分类的样本和同一流形上的样本具有相同的类别。由于分类器应该对局部因素(对应于流形上的移动)的变化保持不变,一种合理的度量是将点 x1 和 x2 各自所在流形 M1 和 M2 的距离作为点 x1 和 x2 之间的最近邻距离。然而这可能在计算上是困 难的(它需要解决一个寻找 M1 和 M2 最近点对的优化问题),一种局部合理的廉价替代是使用 xi 点处切平面近似 Mi,并测量两条切平面或一个切平面和点之间的距 离。这可以通过求解一个低维线性系统(就流形的维数而言)来实现。当然,这种算法需要制定一个切向量。

8.正切传播(tangent prop)算法

训练带有额外惩罚的神经网络分类器,使神经网络的每个输出 f(x) 对已知的变化因素是局部不变的。这些变化因素对应于沿着的相同样本聚集的流形的移动。这里实现局部不变性的方法是要求 ∇xf(x) 与已知流形的切向 v(i) 正交,或者等价地通过正则化惩罚Ω使f 在x的v(i) 方向的导数较小。

9.潜变量

与可观察变量相对,是不直接观察但是通过观察到的其他变量推断(通过数学模型)的变量(直接测量)。旨在用潜在变量解释观察变量的数学模型称为潜变量模型。

10.可辨认性

如果一个足够大的训练集可以唯 一确定一组模型参数,那么该模型被称为可辨认的。

11.权重空间对称性(weight space symmetry)

考虑神经网络的 第一层,我们可以交换单元 i 和单元 j 的传入权重向量、传出权重向量而得到等价 的模型。如果神经网络有 m 层,每层有 n 个单元,那么会有 n!m 种排列隐藏单元的 方式。这种不可辨认性被称为 权重空间对称性。

二.注意:

1.使用整个训练集的优化算法被称为 批量(batch)或 确定性(deterministic)梯 度算法,因为它们会在一个大批量中同时处理所有样本。这个术语可能有点令人困 惑,因为这个词 “批量’’ 也经常被用来描述小批量随机梯度下降算法中用到的小批 量样本。通常,术语 “批量梯度下降’’ 指使用全部训练集,而术语 “批量’’ 单独出现 时指一组样本。例如,我们普遍使用术语 “批量大小’’ 表示小批量的大小。

2.每次只使用单个样本的优化算法有时被称为 随机(stochastic)或者 在线(on- line)算法。术语 “在线’’ 通常是指从连续产生样本的数据流中抽取样本的情况,而 不是从一个固定大小的训练集中遍历多次采样的情况。大多数用于深度学习的算法介于以上两者之间,使用一个以上,而又不是全部 的训练样本。传统上,这些会被称为 小批量(minibatch)或 小批量随机(minibatch stochastic)方法,现在通常将它们简单地称为 随机(stochastic)方法。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值