DeepLearning(花书)第一章主要内容

字写的难看...将就将就,主要讲了计算机擅长形式化任务,而对于直观的任务很难理解
简单机器学习算法(逻辑回归,朴素贝叶斯等等)的性能,很大程度上依赖于给定数据的标识。例如:AI不会直接检查患者,而是需要医生告诉几条相关的信息。
这里写图片描述

许多人工智能任务可以通过一下方式解决:
提取一个合适的特征集
将这些特征提供给简单的机器学习算法

然而很多任务中我们很难知道应该提取那些特征,比如检测一幅图片中的车。

解决这个问题的途径之一是使用机器学习来挖掘表示本身,而不仅仅把表示映射到输出。这种方法我们称之为表示学习(representation learning)。
表示学习的经典例子是自编码器(autoencoder)。自编码器由一个编码器函数和一个解码器函数构成。
输入->(编码器)输出->(解码器)输入

当设计特征或设计用于学习特征的算法时,我们的目标通常是分离出能解释观察数据的 变差因素(factors of variation)。
因素:指代不同的来源;因素通常不是乘性组合,通常为不能直接被观察到的量。
例如:分析语音记录时,变差因素包括说话者的年龄,性别,口音或者他们正在说的词。

现实中的困难主要源于多个变差因素同时影响着我们能够观察到的每一个数据。
比如:一张含有红色汽车的途中,其单个像素在夜间可能接近黑素。汽车的轮廓取决于视角。
这就需要我们理清变差因素并忽略我们不关心的因素。

从原始数据抽取如此高层次高抽象的特征显然是困难的。

深度学习 通过其他较简单的表示来表达复杂表示,并解决学习中的核心问题。
(通过较简单的概念来构建复杂的概念)
如下图:
这里写图片描述
深度学习模型的典型例子就是前馈深度网络或者多层感知机(multilayer perceptron,MLP)。

目前主要有两种度量模型深度的方式:
1.基于评估架构梭鱼执行的顺序指令的数目。(图1.3)
2.将描述概念彼此如何关联的图的深度视为模型深度,即概率模型图,而不是计算图的深度。(图1.3下面的话)
这里写图片描述
在情况2下,计算每个概念表示的计算流程图的深度可能比概念本身的图更深,因为需要多层计算才能表示一个概念。

由于不清楚两种情况哪一种更有意义,所以我们可以选择不同的最小元素集来构建相应的图。因此架构的深度也不存在单一的正确值,也没有“深”的共识。但是相比传统机器学习算法,深度学习研究的模型可以学到更多功能,学到更多概念。
这里写图片描述

这里写图片描述

1.1面向的读者
1.大学生(本科或研究生)
2.职业生涯中的AI工作者

书分为3个部分:
1.介绍几本的数学工具和机器学习的概念
2.介绍最成熟的深度学习算法
3.具有展望性的想法
这里写图片描述

1.2深度学习的历史趋势
关键趋势:
1.有悠久而丰富的历史,但随着许多不同哲学观点的渐渐消逝,与之对应的名称也渐渐尘封。
2.随着可用训练数据量的不断增加,深度学习变得更加有用。
3.随着时间的推移,真滴深度学习的计算机软硬件基础设施都有所改善,深度学习模型的规模也随之增长。
4.随着时间的推移,深度学习已经解决日益复杂的应用,并且精度不断提高。

1.2.1神经网络的众多名称和命运变迁

深度学习已经经历了三次发展浪潮:
1.20世纪40年代到60年代深度学习的雏形初现在控制论(cybernetics)中
2.20世纪80年代到90年代深度学习表现为联结主义(connectionisin)
3.2006年,开始真正以深度学习为名的复兴

我们现在知道的一些最早的学习算法,是旨在模拟生物学系的计算模型,即大难怎样学习或为什么能学习的模型。结果是深度学习以人工神经网络(artificial neural network,ANN)之名淡去。深度学习的神经观点主要受两个主要思想启发:
1.大脑作为例子证明智能行为是可能的
2.理解大脑和人类智能背后的原理也非常有趣
这里写图片描述
第一次浪潮:

现代深度学习的最早前身是从神经科学的角度出发的简单线性模型。
这些模型被设计为:
f(x,w)=x1w1+….xnwn
如图1.7,这第一波神经网络研究浪潮被称为控制论。
这里写图片描述
20世纪50年代,感知机(Rosenblatt,1956,1958)称为第一个能够根据每个类别的输入样本来学习权重的模型
同一时期,自适应线性单元(adaptive linear element,ADALINE)简单地返回函数f(x)本身的值来预测一个实数,并且他还可以学习从数据中预测这些数。
用于调节ADALINE权重的训练方法被称为随机梯度下降(stochastic gradient descent)的一种特例。
基于感知机和ADALINE中使用的函数f(x,w)被称为线性模型(linear model)。
线性模型有很多局限性。最著名的便是,他们无法学习异或(XOR)函数,观察到线性模型的这个缺陷的批评者对受生物学启发的学习普遍的产生了抵触,导致神经网络热潮衰退。

如今神经网络在深度学习中的作用被削弱,主要原因是我们根本没有足够的关于大脑的信息来作为知道去使用它。

神经科学已经给了我们依靠但以深度学习算法解决许多不同任务的理由。注明的雪貂大脑实验。这意味着单一的算法可以解决大部分不同任务。在这个假设之前,机器学习研究室比较分散的,研究人员在不同的社群研究不同的领域。

一句话概括神经科学的贡献就是:
神经科学是machine learning中灵感的来源。

第二次浪潮:

20世纪80年代,神经网络研究在很大程度上式伴随着一个被称为联结主义(connectionism)或并行分布处理(parallel distributed processing)浪潮而出现的。
联结主义是在认知科学的背景下出现的。认知科学是理解思维的跨学科途径,它融合多个不同的分析层次。
20世纪80年代初期,大部分任职科学家研究符号推理模型,尽管这很流行,但是符号模型很难解释大脑如何真正使用神经元实现推理过程。联结主义者开始研究真正基于神经系统实现的认知模型,其中很多复苏的想法剋追溯到心理学家Donald Hebb在20世纪40年代的工作(Hebb,1949)。

联结主义的中心思想是,当网络将大量简单计算单元连接在一起的时候可以实现智能行为。
这种见解同样适用于生物神经系统中的神经元,因为它和计算模型中隐藏单元起着类似的作用。
联结主义的几个关键概念和成就:
1.分布式表示:系统中的每一个输入都应该由多个特征表示,并且每一个特征都应该参与到多个可能输入的表示。
2.反向传播
3.长短时记忆(long short-term memory,LSTM)网络

神经网络研究第二次浪潮的衰退原因:
1.投资者发现AI达不到期望
2.机器学习在其他领域取得了进步,如:核方法

那个时候,普遍任务深度网络是难以训练的。因为计算的代价太高,那个时候没有足够nice的硬件。

第三次浪潮:

2006年,Geoffrey Hinton表明为深度信念网络的神经网络可以使用一种贪婪逐层训练的策略有效地训练。其他CIFAR附属研究小组很快表明同样的策略可以有效地训练其它类型的深度网络,并能够系统地帮助提高在测试样例上的泛化能力。

1.2.2与日俱增的数据量
要从一个深度学习算法中获得良好的性能需要一定的技巧,幸运的是,随着数据量的增加,这种技巧在不断的减少。
图1.8显示了数据集的大小随着时间的推移而显著的增加
这里写图片描述

1.2.3与日俱增的模型规模
20世纪80年代神经网络只能取得相对较小的成功,而现在神经网络非常成功的另一个原因是我们现在拥有的计算资源可以运行更大的规模。
联结主义的见解:许多神经元一起工作的时候会变得聪明,单独的神经元作用不大。
图1.10表示我们现在的机器学习模型中每个神经元的连接数量已经达到了和哺乳生物的大脑同一数量级上
这里写图片描述
图1.11所示,就神经元的总数目而言,直到最近神经网络都是惊人的小。自从隐藏单元引入以来,大约没2.4年就会扩大一倍。
这里写图片描述

1.2.3与日俱增的精度、复杂度和对现实世界的冲击
深度学习的持续成功,比如ImageNet中大方镢头的卷积神经网络,以及在语音方面,行人检测图像分割等等领域都取得了辉煌的成就。
LSTM序列模型,现在用于序列和其他序列之间的关系进行建模,而不是单一的输入输出。这种模型似乎引领着另一个应用的颠覆性发展,即机器翻译。

深度学习的另一个最大的成就就是在强化学习(reinforcement learning)领域的扩展。
DeepMind表明,基于深度学习的强化学习系统能够学会玩Atari视频游戏,并在多种任务中可以与人类匹敌。

持续更新在:
https://github.com/mrright2019/Hola

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值