关于Yann LeCun, Yoshua Bengio & Geoffrey Hinton 的Deep Learning 学习摘要

最新推荐文章于 2020-11-24 17:36:40 发布

勃兰登堡公爵

最新推荐文章于 2020-11-24 17:36:40 发布

阅读量2.3k

点赞数 1

分类专栏： Deep Learning 文章标签：深度学习

本文链接：https://blog.csdn.net/BoneyBrandenburg/article/details/47166167

版权

Deep Learning 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

What is deep learning?
深度学习就是一种特征学习方法，把原始数据通过一些简单的但是非线性的模型转变成为更高层次的，更加抽象的表达。通过足够多的转换的组合，非常复杂的函数也可以被学习.
The main feature of DL?
深度学习的核心方面是，上述各层的特征都不是利用人工工程来设计的，而是使用一种通用的学习过程从数据中学到的。
Supervised Learning
计算一个目标函数可以获得输出分数和期望模式分数之间的误差（或距离）。然后机器会修改其内部可调参数，以减少这种误差。为了正确地调整权值向量，该学习算法计算每个权值的梯度向量，表示了如果权值增加了一个很小的量，那么误差会增加或减少的量。权值向量然后在梯度矢量的相反方向上进行调整。我们的目标函数，所有训练样本的平均，可以被看作是一种在权值的高维空间上的多变地形。负的梯度矢量表示在该地形中下降方向最快，使其更接近于最小值，也就是平均输出误差低最低的地方。
SGD 随机梯度下降算法
提供一些输入向量样本，计算输出和误差，计算这些样本的平均梯度，然后相应的调整权值。通过提供小的样本集合来重复这个过程用以训练网络，直到目标函数停止增长。
After training,the performance of the system is measured on some test set.
Linear Classfiers.
For image and Speech Recog.
输入 - 输出函数要对输入样本中不相关因素的变化不要过于的敏感，如位置的变化，目标的方向或光照，或者语音中音调或语调的变化等，但是需要对于一些特定的微小变化非常敏感.
Backpropagation:
反向传播算法的核心思想是：目标函数对于某层输入的导数（或者梯度）可以通过向后传播对该层输出（或者下一层输入）的导数求得

学习有用的、多级层次结构的、使用较少先验知识进行特征提取的这些方法都不靠谱。因为简单的梯度下降会让整个优化陷入到不好的局部最小解

Unsupervised Learning
创建一些网络层来检测特征而不使用带标签的数据，这些网络层可以用来重构或者对特征检测器的活动进行建模。通过预训练过程，深度网络的权值可以被初始化为有意思的值。然后一个输出层被添加到该网络的顶部，并且使用标准的反向传播算法进行微调。
CNN
process the multiple arrays like a colour image.
Four key ideas:
local connections,shared weights, pooling,use of many layers.
First few stages composed of two types of layers:
convolutional layer &pooling layers.

每一个单元通过一组叫做滤波器的权值被连接到上一层的特征图的一个局部块，然后这个局部加权和被传给一个非线性函数(filter bank && ReLU)
在一个特征图中的全部单元享用相同的过滤器，不同层的特征图使用不同的过滤器
一个值的附近的值经常是高度相关的，可以形成比较容易被探测到的有区分性的局部特征。其次，不同位置局部统计特征不太相关的，也就是说，在一个地方出现的某个特征，也可能出现在别的地方，所以不同位置的单元可以共享权值以及可以探测相同的样本。在数学上，这种由一个特征图执行的过滤操作是一个离线的卷积 .
Pooling
池化层的作用是在语义上把相似的特征合并起来，这是因为形成一个主题的特征的相对位置不太一样

池化单元计算特征图中的一个局部块的最大值，相邻的池化单元通过移动一行或者一列来从小块上读取数据，因为这样做就减少的表达的维度以及对数据的平移不变性。两三个这种的卷积、非线性变换以及池化被串起来，后面再加上一个更多卷积和全连接层
Combination
Local combinations of edges form motifs, motifs asssemble into parts,and parts form objects.
Image Understanding
Distributed representations and language processing

Two advantages of Deep Learning
+ 学习分布式特征表示能够泛化适应新学习到的特征值的组合.
+ 深度网络中组合表示层带来了另一个指数级的优势潜能（指数级的深度）。

The hidden layers of a multilayer neural network learn to represent the network’s inputs in a way that makes it easy to predict the target outputs

在语言模型中，网络中其余层学习并转化输入的单词向量为输出单词向量来预测句子中下一个单词，可以通过预测词汇表中的单词作为文本句子中下一个单词出现的概率。网络学习了包含许多激活节点的、并且可以解释为词的独立特征的单词向量，正如第一次示范的文本学习分层表征文字符号的例子。

这些语义特征在输入中并没有明确的表征。而是在利用 micro-rules
或者from a large corpus
Such representations are called distributed representations because their elements (the features) are not mutually exclusive and their many configurations correspond to the variations seen in the observed data.(Why?)

RNN
RNNs process an input sequence one element at a time, maintaining in their hidden units a ‘state vector’ that implicitly contains information about the history of all the past elements of the sequence
Problems:
the backpropagated gradients either grow or shrink at each time step, so over many time steps they typically explode or vanish.

RNNs 被发现可以很好的预测文本中下一个字符或者句子中下一个单词，并且可以应用于更加复杂的任务 .

训练一个英语的 “ 编码器 ” 网络，使得隐式单元的最终状态向量能够很好地表征句子所要表达的意思或思想。这种thought vector可以作为联合训练一个法语 “ 编码器 ” 网络的初始化隐式状态（或者额外的输入），其输出为法语翻译首单词的概率分布。

RNNs可以将之视为一个所有层共享同样权值的深度前馈神经网络。 It's difficult to learn to store information for very long.

The network with an explicit memory-long short-term memory(LSTM).
A special unit calledthe memory cell.
it has a connection to itself at the next time step that has a weight of one, so it copies its own real-valued state and accumulates the external signal, but this self-connection is multiplicatively gated by another unit that learns to decide when to clear the content of the memory.(self connection)