Deep learning REVIEW（2015）

最新推荐文章于 2021-10-16 12:22:52 发布

诺亚方舟369

最新推荐文章于 2021-10-16 12:22:52 发布

阅读量529

点赞数 1

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/a1056258349/article/details/91405077

版权

深度学习专栏收录该内容

2 篇文章

订阅专栏

1、作者简介

nature新开了一个计算机科学方面专栏，该文就刊登在nature上。作者为2018年图灵奖得主，Geoffrey Hinton（1983年玻尔兹曼机，1986年反向传播算法，2012年卷积神经网络改进，被称为“神经网络之父”），Yann LeCun（1980年卷积神经网络，被称为“卷积神经网络之父”），YoShua Bengio（著作《深度学习》花书，1990年结合神经网络与概率模型，2000年使用高维词向量表征自然语言）。

2、摘要

深度学习是由多个处理层和多个抽样层学习数据表示的计算机模型，其次，深度学习通过使用反向传播算法（BP）来指出机器应该如何改变它的内部参数来发现大数据集中复杂的结构，这些参数用于从上一层的表示中计算每一层的表示。

应用方面，深度卷积网络在图像处理、视频、语音和音频领域带来了突破，而循环网络对于连续的数据如文本和语音有很好的性能。

3、引言

（1）机器学习、表示学习（Representation learning）、深度学习的区别？

机器学习难以做到直接运行原始数据，需要通过特征提取与转换成特征向量；表示学习能喂给机器未处理的原始数据，然后自动分析出数据中需要用于分类的表示（或特征）；深度学习是使用了多层表示学习的方式，把原始数据通过一些简单的但是非线性的模型转变成为更高层次的，更加抽象的表达。通过足够多的转换的组合，非常复杂的函数也可以被学习。

（2）图像分类任务

输入图像的像素值，在第一层表示层中学习到的特征通常表示图像中特定方向和位置上边缘信息；第二层通常通过发现边缘的特定排列来检测图案，而不考虑边缘位置的微小变化；第三层可以将图形组合成更大的组合，这些组合对应于熟悉对象的部分，随后的层将检测对象作为这些部分的组合。最关键的方面在于深度学习是这些层的特征，而不是被人工所设计的特征，即深度学习是使用一个通用的目标学习过程来学习数据。

4、监督学习：Supervised learning

（1）监督学习是机器学习中最常见的一种形式。监督学习的任务是训练一个模型，使其能在给定的输入下，输出预期的值。通过定义一个误差函数来计算输出值与期望值的误差，并调节模型内部的参数来减小这个误差。两种常见的参数调节的算法为梯度下降（Gradient Descent）和随机梯度下降（SGD）。

（2）针对有监督学习问题，大部分机器学习系统都是在人工挑选的特征上训练一个线性分类器。然而，线性分类器的缺陷在于，它只能将输入空间划分为一些简单的区域，因此在诸如图像识别和语言识别的问题上往往无能为力。为了加强分类能力，可以使用泛化的非线性特性，如核方法，但这些泛化特征，比如通过高斯核得到的，并不能够使得学习器从学习样本中产生较好的泛化效果。

5、反向传播算法

用来求解目标函数关于多层神经网络权值梯度的反向传播算法（BP）是一个用来求导的链式法则的具体应用。反向传播算法的核心思想是：目标函数对于某层输入的导数（或者梯度）可以通过向后传播对该层输出（或者下一层输入）的导数求得。

很多深度学习的应用都是使用前馈式神经网络，该神经网络学习一个从固定大小输入（比如，输入是一张图）到固定大小输出（例如，不同类别的概率）的映射。从第一层到下一层，计算前一层神经元输入数据的权值的和，然后把这个和传给一个非线性激活函数。当前最流行的非线性激活函数是修正线性单元(rectified linear unit，ReLU)，函数形式：f(z)=max(z,0)。过去的几十年中，神经网络使用一些更加平滑的非线性函数，比如tanh(z)和1/(1+exp(-z))。但是ReLU通常会让一个多层神经网络学习的更快，也可以让一个深度网络直接有监督的训练。通常情况下，输入层和输出层以外的神经单元被称为隐藏单元。隐藏层的作用可以看成是使用一个非线性的方式打乱输入数据，来让输入数据对应的类别在最后一层变得线性可分。

2006年前后，CIFAR对深度前馈式神经网络提出了一种非监督的学习方法，这种方法可以创建一些网络层来检测特征而不使用带标签的数据，这些网络层可以用来重构或者对特征检测器的活动进行建模。使用这种与训练方法做出来的第一个比较大的应用是关于语音识别的，并且是在GPU上做的，在训练的时候可以得到10倍或者20倍的加速。

6、卷积神经网络

卷积神经网络被设计用来处理到多维数组数据的，比如3通道彩色图像。很多数据形态都是这种多维数组的：1D用来表示信号和序列，例如语言，2D用来表示图像或者声音，3D用来表示视频。卷积神经网络使用4个关键思想：局部连接、权值共享、池化以及多网络层的使用。

深度神经网络利用的很多自然信号是层级组成的属性，在这种属性中高级的特征是通过对低级特征的组合来实现的。在图像中，局部边缘的组合形成基本图案，这些图案形成物体的局部，然后再形成物体。当输入数据在前一层中的位置有变化的时候，池化操作让这些特征表示对这些变化具有鲁棒性。

卷积神经网络中的卷积和池化层灵感直接来源于视觉神经科学中的简单细胞和复杂细胞。这种细胞的是以LNG-V1-V2-V4-IT这种层级结构形成视觉回路的。卷积神经网络有神经认知的根源，他们的架构有点相似，但是在神经认知中是没有类似反向传播算法这种端到端的监督学习算法的。

7、使用深度卷积网络进行图像理解

卷积神经网络被成功的用于检测、分割、物体识别以及图像的各个领域。2012年，卷积神经网络在ImageNet竞赛中取得巨大成功，达到了前所未有的好结果，几乎比当时最好的方法降低了一半的错误率。这个成功来自有效地利用了GPU、ReLU、dropout的正则技术，以及通过分解现有样本产生更多训练样本的技术。一个更好的成果是利用卷积神经网络结合回馈神经网络用来产生图像标题。

卷积神经网络很容易在芯片或者FPGA中高效实现，许多公司比如NVIDIA、Mobileye、Intel、Qualcomm以及Samsung，正在开发卷积神经网络芯片，以使智能机、相机、机器人以及自动驾驶汽车中的实时视觉系统成为可能。

8、分布式表示

表示学习就是自动学习有效表示或特征（一般都是分布式表示），通常需要从底层特征开始，经过多步非线性转换才能得到。深度学习理论表明深度网络具有两个不同的巨大的优势。这些优势来源于网络中各节点的权值，并取决于具有合理结构的底层生成数据的分布。首先，学习分布式特征表示能够泛化适应新学习到的特征值的组合。其次，深度网络中组合表示层带来了另一个指数级的优势潜能。多层神经网络中的隐层利用网络中输入的数据进行特征学习，使之更加容易预测目标输出。

9、循环神经网络

循环神经网络（recurrent neural networks，RNNs）用于处理序列输入的任务，比如语音和语言，但是训练它们被证实存在问题的，因为反向传播的梯度在每个时间间隔内是增长或下降的，所以经过一段时间后将导致结果的激增或者降为零。此外，RNNs是一个所有层共享同样权值的深度前馈神经网络，虽然它们的目的是学习长期的依赖性，但理论的和经验的证据表明很难学习并长期保存信息。为了解决这些问题，一个增大网络存储的想法随之产生。因此，采用了特殊隐式单元的LSTM（long short-term memory networks）被提出，以便长期的保存输入。一种称作记忆细胞的特殊单元类似累加器和门控神经元：它在下一个时间步长将拥有一个权值并联接到自身，拷贝自身状态的真实值和累积的外部信号，但这种自联接是由另一个单元学习并决定何时清除记忆内容的乘法门控制的。

10、深度学习的未来

无监督学习对于重新点燃深度学习的热潮起到了促进的作用，但是纯粹的有监督学习的成功盖过了无监督学习。无监督学习在人类和动物的学习中占据主导地位：我们通过观察能够发现世界的内在结构，而不是被告知每一个客观事物的名称。

我们期望未来在机器视觉方面会有更多的进步，这些进步来自那些端对端的训练系统，并结合ConvNets和RNNs，采用增强学习来决定走向。结合了深度学习和增强学习的系统正处在初期，但已经在分类任务中超过了被动视频系统，并在学习操作视频游戏中产生了令人印象深刻的效果。

补充

11、语言模型

将本地文本的内容作为输入，训练多层神经网络来预测句子中下一个单词。内容中的每个单词表示为网络中的N分之一的向量，也就是说，每个组成部分中有一个值为1其余的全为0。在第一层中，每个单词创建不同的激活状态，或单词向量。在语言模型中，网络中其余层学习并转化输入的单词向量为输出单词向量来预测句子中下一个单词，可以通过预测词汇表中的单词作为文本句子中下一个单词出现的概率。

1-of-Encoding将文本转换成数值向量表示，Word Embeding进行词的向量空间映射。其具体算法Word2Vec可根据当前词预测上下文。

12、其他深度学习方法

强化学习在学习的过程中引入环境反馈机制，给予机器一个奖赏，然后机器重新操作对环境产生影响，不断循环训练。

生成对抗网络(GAN, Generative Adversarial Networks)由生成器和鉴别器组成，学习过程中不断迭代和进化。

自监督学习，一切都在预测，现在预测未来，部分预测整体，或未来预测现在，不断调整系统参数，使模型性能提高。