Deep Learning:A Review

Supervised learning
We compute an objective function that measures the error (or distance) between the output scores and the desired pattern of scores.
我们通过计算一种目标函数来测量输出得分与目标得分之间的偏差,然后机器会修改内在可调参数来减少这种偏差,内在可调参数一般被称作“weights”。在一个典型的深度学习系统中,一般有上亿个“weights”,并且有上亿个打上标签的例子来供机器进行学习。为了调整weight向量,学习算法计算出一种梯度向量,用来表明当weight向量轻微改变时,偏差会增大或减小多少。
实践中很多人会采用 stochastic gradient descent (SGD)随机梯度下降的方法,即通过一系列过程降低偏差,并重复这一过程,直至目标函数的偏差不再降低。
图像识别的难题在于,输入-输出函数要对一些变量不敏感,例如位置、方向、物体的照明等;要对一些小变量非常敏感,例如如何分辨一只白狼和一只萨摩耶。
“浅”分类器需要更好的特征提取器来解决选择性问题,即什么特征是对图片分类来说是重要的,什么是不重要的。因此使分类器更强大可以采用非线性特征。
The conventional option is to hand design good feature extractors, which requires a considerable amount of engineering skill and domain expertise. But this can all be avoided if good features can be learned automatically using a general-purpose learning procedure. This is the key advantage of
deep learning.
传统的选择是人工设计特征提取器,但这需要大量的工程技巧和专业知识。但通过一种通用的学习程序可以避免这个复杂的过程,这也是深度学习的优点所在。
Backpropagation to train multilayer architectures
目标相对于模块输入的导数(或梯度)可以通过从相对于该模块的输出(或后续模块的输入)的梯度向后工作来计算。反向传播方程可以重复应用于通过所有模块传播梯度,从顶部的输出(最终产生预测的地方)一直到底部(输入外部输入的地方)。
在这里插入图片描述
九十年代时,神经网络和反向传播算法被机器学习团体所遗弃,被机器视觉和语言识别团体所忽视。因为人们普遍认为,没有预备知识去学习有用的、多阶段的特征提取器是不可行的,人们普遍认为简单的梯度下降会被困在较差的局部最小值配置中,因为很小的变化都不会减少平均误差。
后来在实践中表明,局部极小值并不是一个需要考虑的问题,算法被困在那些鞍点上并不重要。因而在2006年, Canadian Institute for Advanced Research (CIFAR)加拿大高级研究所重新开始研究前馈网络,研究人员引入了无监督学习程序,可以创建特征检测器层,而不需要标记数据。学习每一层特征检测器的目标是能够重建或建模下一层的特征检测器。2009年,通过这种方法,从一小段语音中提取到的信息可以被广泛运用,最终在语音识别领域取得了破纪录的进展。一旦采用深度学习,训练前阶段只需要不是很大的数据集。
Image understanding with deep convolutional networks
traffic sign recognition, the segmentation of biological particularly for connectomics, and the detection of faces, text, pedestrians and human bodies in natural images. A major recent practical success of ConvNets is face recognition. Companies such as Mobileye and NVIDIA are using such ConvNet-based methods in their upcoming vision systems for cars. Other applications gaining importance involve natural language understanding and speech recognition.
尽管取得了一系列的成功,但在2012年ImageNet竞赛之前,CNN很大程度上被主流计算机视觉和机器学习团体所抛弃。在这个竞赛中,CNN被用于包含1000个类别大约100万的图像进行识别,将错误率减小了一半。这一成功带来了计算机视觉的革命。
在这里插入图片描述
现在的CNN架构大概有10-20个激励层,数亿个weight和数十亿个连接单元,起初这样的训练需要几周的时间,但随着硬件和软件的发展已经可以缩短至几小时。
The performance of ConvNet-based vision systems has caused most major technology companies, including Google, Facebook, Microsoft, IBM, Yahoo!, Twitter and Adobe, as well as a quickly growing number of start-ups to initiate research and development projects and to deploy ConvNet-based image understanding products and services. ConvNets are easily amenable to efficient hardware implementations in chips or field-programmable gate arrays. A number of companies such as NVIDIA, Mobileye, Intel, Qualcomm and Samsung are developing ConvNet chips to enable real-time vision applications in smartphones, cameras, robots and self-driving cars.
Distributed representations and language processing
深度学习理论表明,与不使用分布式表示的经典学习算法相比,深度网络有两种不同的指数优势。这些优势来源于底层的数据生成分配有合适的组成结构。第一种优势在于学习分布式表示可以泛化学习到的超越训练中的特征值的新结合;第二种优势在于组合表示层在深度网络中为另一种指数优势带来了潜力。
学习单词向量是一种很好的方法。当被训练去预测新闻故事中的下一个单词时,Tuesday and Wednesday、 Sweden and Norway是非常相似的,这种表示被称为分布式表示,因为他们的元素或者说是特点并不排斥,并且他们的配置对应于观测到的数据中的变量。这些词向量不是预先设定的,是由学习过程中获得到的特征生成的,即通过神经网络发现的。单词向量已经在自然语言中得到广泛应用。
Recurrent neural networks
反向传播算法最令人兴奋的应用就是循环神经网络。
在这里插入图片描述

![在这里插入图片描述](https://img-blog.csdnimg.cn/aae4e666b9bb4e63851f29052d67c2bf.PNG#pic_center)

循环神经网络在预测文本中接下来的内容方面非常出色,同时它也可以胜任其他复杂的情况。当给出一个英语单词后,它会自动预测下一个词是什么的概率,然后不断重复直至句号。但是这种网络很难长期存储信息,于是引入了改进过的long short-term memory (LSTM)。它改进了对于隐藏层的算法,对于长序列更有效。
The future of deep learning
无监督学习在恢复人们对深度学习的兴趣方面有催化作用,但后来被有监督学习的成功所掩盖。虽然在这篇综述中没有关注它,但从长远来看无监督学习会变得更加重要。人类和动物的学习在很大程度上是不受监督的,我们通过观察世界来发现世界的结构,而不是通过被告知每个物体的名字。
未来视觉系统取得的进展主要来自CNN和RNN相结合,深度学习和强化学习相结合的系统还处于起步阶段,但他们已经在很多方面取得了令人印象深刻的成果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值