Deep learning

深度学习允许由多个处理层组成的计算模型学习具有多个抽象级别的数据表示,极大地提高了语音识别、视觉目标识别、目标检测以及药物发现和基因组学等领域的技术水平。

1. 监督学习:

- 目标函数(objective function)
计算预测值与真实值之间的差。目标函数在所有训练实例中的平均值可以看作是高维权重值空间中的一种丘陵景观。负梯度矢量指示这一景观中最陡的下降方向,使其更接近最小值,即输出误差平均较低。

- 随机梯度下降算法(stochastic gradient descent)
为适当地调整权重,学习算法计算每个权重的梯度向量,然后以与梯度向量相反的方向调整权重向量。
随机——每个小样本集对全体样本的平均梯度来说有噪声估计

2. 非监督学习

可以在数据无标签的情况下创建多层特征检测器。

学习每一层特征检测器的目的是能够重建或模拟下一层的特征检测器(或原始输入)的活动。利用这一重建目标,通过“预训练”几层逐渐复杂的特征检测器,可以将深度网络的权重初始化为合理的值。最后一层输出单元可以添加到网络的顶部,然后使用标准反向传播进行微调。

3. 反向传播算法:

机器应如何改变其内部参数——目标相对于模块的输入的导数(或梯度)可以通过相对于该模块的输出(或后续模块的输入)的梯度向后传播来计算。

- 非线性函数:如tanh(Z),1/(1+exp(−z),max(z,0)(RELU),其中RELU出现最早,且在多层网络中学习速度更快,允许在没有无监督预训练的情况下对深度监督网络进行训练。

- SGD的局限:局部极小值几乎不是问题所在。最近的理论和实验结果表明,目标函数图像中存在大量鞍点,这些鞍点的梯度是零,表面曲线在大多数维度上升,在其余维度下降。分析表明,这些鞍点的向下弯曲的方向并不多,但几乎所有鞍点都具有非常相似的目标函数值。因此,算法在哪一个鞍点上被卡住并没有太大的关系。

4. 深度卷积网络:

许多数据模式是多重数组的形式:1D表示信号和序列,比如语言;2D表示图像或音频光谱图;3D表示视频或体积图像。

- ConvNets的四个关键点:利用了自然信号的特性,局部连接、共享权重、池和多层的使用。

- 典型ConvNet的体系结构:前几个阶段由卷积层和池化层组成。卷积层中的单元被组织成特征映射,其中每个单元通过一组权重(滤波器组)连接到前一层特征映射中的局部块,然后局部加权和通过非线性函数传递。同一特征映射层中的所有单元共享相同的权重,同一阶段的不同特征映射层使用不同的权重(通过n个不同映射方法得到n个特征层)。

选择该架构的原因:首先,在像图像这样的阵列数据中,局部值组往往高度相关,形成易于检测的独特的局部基元。第二,图像和其他信号的局部统计量对位置是不变的。换句话说,如果一个图案可以出现在图像的一个部分,那么它可以出现在任何地方,因此不同位置的单元共享相同的权重,并在数组的不同部分检测相同的图案。

关于该架构的趣解

共享权重减少了参数,但会造成提取的局部特征不全面,所以通多更换不同的映射方法(权重、滤波器组)来提取全面的特征。

5. 递归神经网络:(Recurrent neural network)

对于涉及顺序输入的任务,如语音和语言,更好的方法是使用RNN。

RNN每次处理一个输入序列,在其隐藏单元中保持一个“状态向量”,该“状态向量”隐式地包含序列中所有过去元素的历史信息。当我们考虑隐藏单元在不同离散时间步长上的输出时,就好像它们是深层多层网络中不同神经元的输出一样。

RNN在训练中的问题:反向传播的梯度在每个时间步长上要么增长要么缩小,所以在许多时间步长中,它们通常会爆发或消失。

由于在结构上和训练方法的进步,RNN非常擅长预测文本中的下一个字符或序列中的下一个单词,但它们也可以用于更复杂的任务。

RNN,一旦在时间上展开,可以看作是一种非常深的前馈网络,在这种网络中,所有的层都具有相同的权值。尽管它们的主要目的是学习长期依赖关系,但实际上很难学习长时间存储信息。

为了纠正这种情况,一种想法是用显式内存扩大网络。比如,使用特殊隐藏单元的long short-term memory(LSTM)网络,其自然行为是长时间记住输入。一个称为记忆单元的特殊单元就像一个累加器或门控漏电神经元:它与自身在下一个时间步有一个连接,所以它复制自己的实值状态并积累外部信号,但是这种自我连接被另一个学习决定何时清除内存内容的单元所控制。

6. 分布式表示与语言处理

(对每个特征用0,1表示,0表示没有该特征,1相反)
(词性相似的单词的向量也相似,比如,周二和周三的单词向量非常相似,瑞典和挪威的单词向量也是如此)

这种表示被称为分布式表示,因为它们的元素(特性)并不相互排斥,而且它们的许多配置对应于在观察到的数据中看到的变化。这些词向量由学习到的特征组成,这些特征不是由专家事先确定的,而是由神经网络自动发现的。

深度网络的两个优势:这两个优点都来自于组合的能力和具有适当组合结构的底层数据生成分布。首先,学习分布式表示能够将学习到的特征值的新组合泛化到训练过程中已有的值之外(例如,2^n种组合可能有n个二元特征)。第二,在深层网络中组成表示层会带来另一个指数级优势(深度指数)。

多层神经网络的隐藏层学习以一种易于预测目标输出的方式来表示网络的输入。通过训练一个多层神经网络来从先前单词的局部上下文预测序列中的下一个单词就很好地证明了这一点。

上下文中的每个单词都作为N中的一个向量呈现给网络,即一个分量的值为1,其余的分量为0。在第一层,每个单词创建一个不同的激活模式,或单词向量。

在语言模型中,网络的其他层学习将输入的单词向量转换为预测的下一个单词的输出单词向量,该输出单词向量可用于预测词汇表中的任一单词作为下一个单词出现的概率。该网络学习包含许多有效成分的单词向量-每一个都可以被解释为单词的一个单独特征。这些语义特征在输入中没有显式地显示出来。学习过程发现,它们是将输入和输出符号之间的结构化关系分解成多个“微观规则”的一种很好的方法。当单词序列来自大量的真实文本,并且单个的微观规则是不可信赖的时,学习单词向量的效果也是非常好。

表示问题是逻辑启发和神经网络启发的认知范式争论的核心。在逻辑启发的范例中,符号的实例是区别它与其他符号实例相同或不相同的唯一的属性。它没有与其使用相关的内部结构;符号的推理,必须与推理的明智选择地规则中的变量联系在一起。相比之下,神经网络只是使用大的活动向量、大的权重矩阵和标量非线性来进行快速的“直觉”推理,而这种推理是毫不费力的常识推理的基础。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值