Deep learning

  首先这篇论文是一篇有关深度学习的综述。讲述了深度学习的发展史,应用领域,基本算法以及常用的网络结构;最后对深度学习的未来做了一个展望。

  下面,将论文中每部分的关键点做笔记。

1.引言

   深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转变为更高层次的,更加抽象的表达。通过足够多的转换的组合,非常复杂的函数也可以被学习。比如,一副图像的原始格式是一个像素数组,那么在第一层上的学习特征表达通常指的是在图像的特定位置和方向上是否有边缘的存在;然后第二层通常会根据那些边缘的某些排布而检测图案,此时会忽略边缘上一些小的干扰;之后的每层,会把图案组合成一部分,这部分就是目标的一部分;再把这些部分组合起来,构成目标。

   深度学习已经被证明,它能够擅长发现高维数据中的复杂结构,因此它能够被应用于科学、商业和政府等领域。

2.监督学习

   通过计算一个目标函数可以获得输出分数和正确分类分数之间的差(或距离)。然后机器会修改其内部可调参数,以减少这种误差。这些可调节的参数,通常被称作为权值,它们是一些实数,可以被看作是一些旋钮,定义了机器的输入输出功能。在典型的深度学习系统中,有可能有数以百万计的样本和权值,和带有标签的样本,用来训练机器。

  我们的目标函数,所有训练样本的平均,可以被看作一种在权值的高维空间上的多变地形。负的梯度矢量表示在该地形中下降方向最快,使其更接近于最小值,也就是平均输出误差最低的地方。实际应用中,大部分从业者都使用SGD。

  训练结束后,系统会通过不同的数据样本--测试集来显示系统的性能。

  从20世纪60年代开始,我们就知道了线性分类器只能把样本分为非常简单的区域,也就是说通过一个超平面把空间分为两部分。

  对于图像识别问题来说,它们需要输入--输出函数对样本中不相关因素的变化不要太过敏感;比如,位置的变化,方向,光照的变化;但对一些特定的微小变化需要非常敏感(比如萨摩耶与一只白狼的差异)

 链式法则告诉我们两个小的变化是怎样组织到一起的

  为了加强分类能力,可以使用泛化的非线性特性,如核函数。但这些泛化特征,比如通过高斯核得到的,并不能够使学习器从学习样本中产生较好的泛化效果。传统方法是手工设计良好的特征提取器,但这需要大量的工程以及专业领域知识。

  具有一个5层到20层的非线性多层系统能够实现非常复杂的功能,比如输入数据对细节非常敏感--可以区分白狼和萨摩耶,同是又具有强大的抗干扰能力,可以忽略掉不同的背景、姿势、光照和周围的物体等。

3.反向传播来训练多层神经网络

  反向传播算法的核心思想是:目标函数对于某层输入的导数(或者梯度)可以通过向后传播对该层输出(或者下一层输入)的导数求得(如图1)。反向传播算法可以被重复的用于传播梯度通过多层神经网络的每一层:从该多层神经网络的最顶层的输出(也就是该网络产生预测的那一层)一直到该多层神经网络的最底层(也就是被接受外部输入的那一层),一旦这些关于(目标函数对)每层输入的导数求解完,我们就可以求解每一层上面的(目标函数)权值的梯度了。

  当前最流行的非线性激活函数是ReLU。

  实践中,如果在大的网络中,不管使用什么样的初始化条件,局部最小解并不算什么大问题,系统总是得到效果差不多的解。最近的研究表明,局部最小解不是什么大问题。相反,解空间中充满了大量的鞍点(梯度为0的点),同时鞍点周围大部分曲面都是往上的。所以这些算法就算是陷入这些局部最小值,关系也不太大。

  通过预训练过程,深度网络的权值可以被初始化为有意思的值。使用这种预训练方法做出来的第一个比较大的应用是关于语音识别的,是在GPU上做的,这是因为写代码很方便,并且在训练的时候扩得到10倍20倍的速度提升。2009年,这种方法被用来映射短时间的系数窗口,该系统的窗口是提取自声波并被转换成一组概率数字。

4.卷积神经网络

  1D表示信号和序列包括语言,2D表示图像或声音,3D表示视频或有声音的图像。卷积神经网络使用4个关键的想法来利用自然信号的属性:局部连接,共享权值,池化以及多网络的使用。

5.使用卷积神经网络进行图像理解

  在ImageNet竞赛中,深度卷积神经网络被用在上百万张网络图片数据集,这个数据集包含1000个不同的类。结果十分好,几乎比当时最好的方法降低了一半的错误率。这个成功来自有效利用了GPU、ReLU、以及dropout的正则化技术。

  卷积神经网络很容易在芯片或者现场可编程门阵列(FPGA)中高效实现,许多公司比如NVIDIA,Mobileye,Intel,Qualcomm以及Samsumg,正在开发卷积神经网络芯片,以及使用智能机,相机,机器人以及自动驾驶汽车中的实现视觉系统成为可能。

6.分布式特征表示与语言处理

  与不使用分布式特征表示的经典学习算法相比,深度学习理论表明深度网络具有两个不同的巨大优势。

  多层神经网络中的隐层利用网络中输入的数据进行特征学习,使之更加容易预测目标输出。

  从文本中学习得单词向量表现在广泛应用于自然语言中。

7.循环神经网络

8.展望

  强化学习,无监督学习,自监督学习。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值