论文阅读翻译《Deep Learning for AI》

原文链接link
新鲜论文的简单翻译

Deep Learning for AI

人工神经网络的研究源于以下观察:人类智能来自于高度并行的简单的非线性神经元网络,这些神经元通过调整其连接的强度来完成学习。这一观察导致了一个核心的计算问题:这种常见类型的网络如何学习像是识别物体或理解语言等困难任务所需的复杂内部表示?深度学习试图通过使用多层活动向量作为表示并通过 跟踪衡量网络性能的目标函数的随机梯度来学习产生这些向量的连接强度 来回答这个问题。非常令人惊讶的是,这种概念上简单的方法在使用大量计算并应用于大型训练集时被证明非常有效,而且有效的一个关键因素是深度:因为浅层网络无法如此有效。

我们回顾了几年前深度学习的基本概念和一些突破性成就。[63]这里我们简要描述深度学习的起源,描述一些最近的进展,并讨论一些未来的挑战。 这些挑战包括在很少或没有外部监督的情况下学习,处理来自与训练示例不同分布的测试示例,以及使用深度学习方法解决人类有意识地参与并需要深思熟虑的步骤序列来解决的任务—— Kahneman[56]将这些任务称为系统 2 任务,而不是系统 1 任务,例如对象识别或即时自然语言理解,深度学习方法解决这些任务通常较为轻松。

从手工编码的符号表达式到学习的分布式表示

人工智能有两种截然不同的范式。 简而言之,逻辑启发范式将顺序推理视为智能的本质,旨在使用手工设计的推理规则在计算机中实现推理,这些规则对手工设计的将知识形式化的符号表达式进行操作。 受大脑启发的范式将从数据中学习表征视为智能的本质,旨在通过手动设计或演化规则来实现学习,以修改人工神经元模拟网络中的连接强度。

在逻辑启发范式中,符号没有有意义的内部结构:它的意义在于它与其他符号的关系,这些关系可以用一组符号表达式或关系图来表示。 相比之下,在类脑范式中,用于交流的外部符号被转换为神经活动的内部向量,这些向量具有丰富的相似结构。 活动向量可用于对一组符号串中固有的结构进行建模,通过为每个符号学习适当的活动向量并学习允许填充与符号串缺失元素对应的活动向量的非线性变换。 Rumelhart 等人[74] 首次在玩具数据上证明了这一点,然后 Bengio 等人 [14]在真实句子上证明了这一点。 最近一个非常令人印象深刻的演示是 BERT[22],它也利用自注意力来动态连接单元组,这会在后面描述。

使用神经活动向量来表示概念和权重矩阵来捕捉概念之间的关系的主要优点是,这会带来自动泛化。 如果星期二和星期四由非常相似的向量表示,它们将对神经活动的其他向量产生非常相似的因果影响。 这有助于类比推理,并表明直接、直观的类比推理是我们主要的推理模式,而逻辑顺序推理则发展地较晚[56] (我们将对此进行讨论).

深度学习的兴起

深度学习在 2000 年代初期通过引入一些元素使训练更深的网络变得容易,从而重新激发了神经网络的研究。 GPU 的出现和大型数据集的可用性是深度学习的关键推动因素,并且随着具有自动区分功能的开源、灵活的软件平台(例如 Theano、Torch、Caffe、TensorFlow、和 PyTorch)的发展而得到了增强 。这使得训练复杂的深度网络和重用最新模型及其构建块变得容易。 但是,更多层的组合允许更复杂的非线性,并在感知任务中取得了令人惊讶的好结果,总结如下。

为什么是深度?
尽管更深层次的神经网络可能是更强大的这一直觉的出现早于现代深度学习,[82]但是这一直觉是架构和训练程序方面的一系列进步,[15,35,48]并且迎来了与崛起的深度学习的显著进步。但是为什么更深的网络可以更好地概括我们对建模感兴趣的输入-输出关系类型?重要的一点是,这不仅仅是具有更多参数的问题,因为深度网络通常比具有相同参数数量的浅层网络具有更好的泛化能力。[15] 实践证实了这一点。 目前最流行的计算机视觉卷积网络架构类别是 ResNet 系列[43],其中最常见的代表 ResNet-50 有 50 层。 本文中未提及但结果证明非常有用的其他成分包括图像变形,丢弃法[51]和批量标准化[53]。

我们相信深度网络之所以出色,是因为它们利用了一种特定形式的组合性,其中一层中的特征以多种不同的方式组合,以在下一层创建更多抽象特征。

对于像感知这样的任务,这种组合性非常有效,并且有强有力的证据表明它被生物感知系统使用[83]。

非监督预训练
当标记训练示例的数量与执行任务所需的神经网络的复杂性相比较小时,可以使用一些其他信息源的数据来创建特征检测器层,然后微调这些特征检测器的做法在有限的标签供应的情况下是有意义的。 在迁移学习中,信息来源是另一个具有大量标签的监督学习任务。 但也可以通过堆叠自动编码器来创建多层特征检测器,而无需使用任何标签[15,50,59]。

首先,我们学习了一层特征检测器,其输出允许我们重建输入。 然后我们学习第二层特征检测器,其输出允许我们重建第一层特征检测器的输出。 在以这种方式学习了几个隐藏层之后,我们尝试从最后一个隐藏层中的输出预测标签,并通过所有层反向传播错误,以便微调最初发现的特征检测器,从而达到不使用标签中的宝贵信息而预训练的目的。 预训练可以很好地提取与最终分类无关的各种结构,在计算便宜且标记数据昂贵的情况下,预训练将输入转换为有用的表示,从而使分类更容易。

除了提高泛化能力之外,无监督预训练还以一种很容易通过反向传播微调深度神经网络的方式初始化权重。 预训练对优化的影响在历史上对于克服深度网络难以训练的公认观点很重要,但现在人们使用修正线性单元(见下一节)和残差连接,它的相关性要小得多[43]。然而, 预训练对泛化能力的影响已被证明是非常重要的。 它可以通过利用大量未标记的数据来训练非常大的模型,例如在自然语言处理中,有大量的语料库可用[26,32]。预训练和微调的一般原则已经被证明成为深度学习工具箱中的重要工具,例如,当涉及到迁移学习时,甚至作为现代元学习的一个组成部分[33]。

整流线性单元ReLU的神秘成功

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值