One Model To Learn Them All原文谷歌翻译版本

最新推荐文章于 2023-11-22 08:51:52 发布

moggynaa

最新推荐文章于 2023-11-22 08:51:52 发布

阅读量905

点赞数

分类专栏： MTL

本文链接：https://blog.csdn.net/jingkebiao4847/article/details/78654291

版权

MTL 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

摘要
深度学习在许多领域产生了巨大的成果，从语音识别，
图像分类，翻译。但是，对于每一个问题，深入研究模型
都需要对体系结构和长时间的调整进行研究。
我们提出了一个模型，可以在多个领域的许多问题上得到很好的结果。特别是在
ImageNet上同时训练这个单一的模型，多个翻译任务，图像字幕（COCO数据集），语音
识别语料库和英语解析任务。我们的模型体系结构包含来自多个域的构建块。它包含卷积层，
关注机制和稀疏的门控层。这些计算
块中的每一个对于我们训练的任务的一个子集都是至关重要的。有趣的是，即使是一个块
对于一个任务来说并不是至关重要的，我们注意到，添加它从不会伤害到性能，并且
在大多数情况下可以改善所有任务我们还表明，数据较少的任务在
很大程度上受益于与其他任务的联合训练，而大型
任务的性能只会略微降低。
1引言
近年来深层神经网络的成功已经跨越了许多领域，从计算机视觉[13]到
语音识别[8]等许多任务。卷积网络擅长与视觉有关的任务，
而递归神经网络在自然语言处理任务中被证明是成功的，例如在
机器翻译[27,3,4]。但是在每种情况下，网络都是专门为其设计和调整的
手头的问题。这限制了深度学习的影响，因为需要为
每个新任务重复这个努力。它与人脑的一般性质也有很大的不同，它可以
学习许多不同的任务，并从转换学习中受益。自然而然的问题就出现了：
我们能否创建一个统一的深度学习模型来解决跨多个领域的任务？
关于多任务模型的问题已经在深度学习文献的许多论文中得到了研究。
很久
以前，自然语言处理模型已经被证明可以从多任务方法中受益[6]，最近机器翻译模型甚至被证明是零点射
学习时多语言培训[18]。语音识别也被证明可以
从多任务训练中受益[24]，因为有一些视觉问题，如面部标志检测[31]。
但是，所有这些模型都是从同一领域的
其他任务进行训练的：翻译任务接受其他翻译任务，其他视觉任务的视觉任务，其他语音
任务的语音任务。已经显示，多模式学习可以改善在无人监督
*在Google Brain进行的工作中的学习表示。
代码可在https://github.com/tensorflow/tensor2tensor
arXiv：1706.05137v1 [cs.LG] 2017年6月16日图1：从8个任务共同训练的单个MultiModel解码的示例。红色描绘了一个
语言形式，而蓝色描绘了一个绝对的形式。
设置[20]，当作为一个先验已知的无关任务[22]。但是没有提出具有竞争力的多任务
多模式模型，所以上述问题还没有得到解答。
在这项工作中，我们通过引入
MultiModel体系结构这一单一的深度学习模型，可以同时学习
来自不同领域的多个任务，从而积极回答上述问题。具体而言，我们同时训练多模式上的以下8
语料库：
（1）WSJ语料库[7]
（2）的数据集ImageNet [23]
（3）图像COCO字幕数据集[14]
（4）WSJ解析数据集[17]
（5）WMT英德翻译语料库
（6）与上述相反：德英翻译。
（7）WMT英法翻译语料库
（8）与上述相反：德法翻译。
该模型学习了上述所有任务，取得了良好的性能：目前不是最先进的技术
，而是最近研究的许多特定任务模型（详见第3节）。
图1显示了直接从模型中取得的一些解码：很明显，它可以为图像添加标题，
对它们进行分类，翻译成法语和德语，构建解析树。虽然MultiModel
只是第一步，未来将会进行调整和改进，但两个关键的见解对于制定至关重要
它工作，是这项工作的主要贡献。
小模态特定的子网络转换成统一的表示形式并从其返回。
为了允许对图像，
声波和文本等广泛不同大小和尺寸的输入数据进行训练，我们需要子网将输入转换为联合表示空间。我们把
这些子网络形式网络称为每种形式（图像，语音，文本）的特定网络，并
定义这些外部域之间的转换和统一表示。我们设计的
模态网络在计算上是最小的，促进了大量的特征提取，并确保
大部分计算在模型的域不可知体中执行。自从我们
模型是自回归的，模态网既需要将输入转化为统一表示
，又需要将这种表示转换为输出空间。两个设计决策很重要：
统一表示是可变大小的。虽然固定大小的表示法很诱人
并且更容易实现，但它会造成瓶颈并限制模型的性能。
•来自同一个域的不同任务共享模态网络。我们避免
为每个任务创建一个子网络，而只是为每个输入模式创建一个子网络。例如，
不管哪种语言，所有的翻译任务都有相同的形式 - 网络（和词汇）
对。这鼓励跨任务的泛化，并允许即时增加新的任务。
图2：多模式，具有模态网，编码器和自回归解码器。
不同类型的计算块对于各种问题的良好结果至关重要。
MultiModel的主体结合了来自多个领域的构建块。我们使用depthwisepaparable卷积，一个注意机制，和稀疏的门控混合专家层。这些
块被引入到属于不同领域的文件中，之前没有
从其他领域的任务中学习过。例如，在Xception
架构[5] 中引入了可分离的卷积，并且之前不应用于文本或语音处理。另一方面，
由于语言处理任务引入了专门的稀疏混合专家[21]，并
没有对图像问题进行研究。我们发现，这些机制中的每一个对于
它所引入的领域来说确实是至关重要的，例如，对于与语言有关的任务而言，注意力要比与
图像相关的任务重要得多。但是，有趣的是，添加这些计算块从不会损害性能，
即使在他们没有设计的任务上也是如此。实际上，我们发现注意力和专家混合
层都会稍微提高ImageNet上MultiModel的性能，这是最需要他们的任务。
2 MultiModel架构
MultiModel包含一些小的模态网络，编码器，I / O混合器和自回归
解码器，如图2所示。如上所述，编码器和解码器
使用3个关键计算块来构建，以在不同的问题上获得良好的性能：
（1）卷积使得模型能够检测局部模式并在空间上推广。
（2）注意层可以专注于特定的元素来提高模型的性能。
（3）专门的稀疏混合专家给出的模型能力没有过多的计算成本。
我们首先描述这三个模块中的每一个模块的架构，然后介绍编码器，
解码器和我们模态网络的架构。
2.1卷积块
为了执行本地计算，我们使用ReLU非线性和归一化的卷积块。一个卷积块得到一个形状张量（批量大小，序列长度，
特征通道），并返回一个相同形状的张量，处理如下。
对于卷积运算，我们使用[5]中介绍的深度可分卷积，
类似于[15]。深度可分离的卷积是
传统卷积的参数和计算有效的变体。它们分别通过每个特征通道的卷积来定义
，然后逐点卷积以投影到期望的特征深度。我们指的是
读者可以[5]获得完整的定义; 这里我们将用一个深度可分的卷积来表示一个深度可分的卷积，其中
w h×w对应于大小为h×w的f个内核，应用于一个
幅度为s 的输入张量x，并且由因子d扩大（见[30]）为SepConvd; s; f （W; x）。请注意，
当膨胀d或步幅s等于1，或输出大小f等于
输入的特征深度时，省略步幅，膨胀和输出大小的下标。
3我们在由三个部分组成的块中使用卷积：输入的ReLU激活，
然后是SepConv，然后是层归一化。图层规范化[2]作用于
下面图层的h隐藏单元，计算每个批处理示例的层次统计
相应地正常化。这些归一化单位然后
分别通过标量学习参数G和B 进行缩放和移位，产生由非线性激活的最终单位。因此
完整的卷积步骤定义为：
ConvStepd; s; f（W; x）= LN（SepConvd; s; f（W; ReLU（x）））：
卷积步骤通过堆积和添加残余连接
，如图3所示。我们使用四个卷积块
的堆栈，在堆栈输入和第二个和第四个卷积步骤的输出之间有两个跳过连接，
前两个有3×1个内核，接下来的两个有15个×1粒，最后一粒扩大8粒
提供广泛的接受领域。我们还在每个块的末尾添加40％漏失，所以完整的
块被定义为如下：
hidden1（X）= ConvStep（Wh31×1; X）
hidden2（X）= X + ConvStep（Wh32×1; hidden1（ X））
hidden3（X）= ConvStep（Wh15 3×1; hidden2（X））
hidden4（X）= X + ConvStepd = 8（Wh15 4×1; hidden3（X））
？ConvBlock（X）=差hidden4（（xhidden）4（x）; 0：4）
2.2注意块
注意，我们使用了一个多头点积的注意机制[3]，类似于
[1]，如图3所示。关注层的输入是两个张量：一个源张量
和一个目标张量都与形状[批量大小; 序列长度; 特征频道]目标
张量与定时信号叠加构成，并使用两个卷积块进行混合。
然后，这个混合张量使用多头点积注意，这是一个点注意的产品注意力，这些注意力被
分成代表每个注意力头的g = 8个单独的张量，
如图3所示。定时信号是这种关注机制与
之前使用的机制之间的主要区别。他们允许基于内容的注意力集中在他们的位置上。它们
通过连接正弦和余弦曲线构造：
Δ（2D）= 1e4-深度2D
定时（T; [2D; 2D + 1]）= [SIN（Δt内（2D））K2 COS（Δt内（2D）） ]
其中[ajjdb]表示a和b沿第d维的级联。源张量是最终的
通过两个不同的逐点卷积来生成记忆密钥K和值V，
并使用查询关键字，记忆关键字和记忆值来应用自注意
目标和源之间的关注机制（见图3）。
2.3混合专家块
我们使用与[21]中介绍的相同类型的稀疏门控混合专家层：混合专家层由许多简单的前馈神经网络（专家）和一个可训练的
门控网络选择专家的稀疏组合来处理每个输入。我们引用
读者[21]的细节，因为我们使用完全在那里描述的架构。特别是在期间
训练我们从整个专家库中选择k = 4位专家，并添加额外的负载平衡
成本，如[21]。在我们模型中的两个专家混合层中，我们使用共计240位
专家共同训练8个问题，60位专家分别对每个问题进行训练。
2.4编码器，混音器和解码器
MultiModel的主体由三部分组成：仅处理输入
的编码器，将编码输入与先前输出（自回归部分）混合的混音器，以及
处理输入和混音的解码器产生新的产出。
图3：多模型的体系结构; 详情请参阅文字。
编码器，混频器和解码器的结构与先前的完全卷积序列相似，以对
ByteNet [11]或WaveNet [29]等模型进行序列化，但
所使用的计算模块不同。我们在图3中描述了它们的结构。从中可以看出，编码器由6个
重复的卷积块（在前面描述）组成，中间是混合专家层。该
混频器包括一个关注块和2个卷积块。解码器由4个
卷积和注意块组成，中间是混合专家层。至关重要的是，
混音器和解码器中的卷积被填充在左侧，所以他们将来无法访问任何信息。
这允许模型是自回归的，并且这个卷积自回归生成方案
在输入和过去的输出上提供大的接受场，这能够建立
长期的依赖关系。
为了允许解码器为不同的任务产生输出，即使是相同的模态，我们也总是
用一个命令令牌开始解码，比如To-English或To-Parse-Tree。我们学习
训练期间对应于每个令牌的嵌入向量。
2.5形态网
我们有4种形态网，语言（文本数据），图像，音频和分类数据。
2.5.1语言模态网
我们基于语言的数据全部使用与8k个子字单元相同的词汇表进行标记
该方法来自[25]。语言输入模态需要一系列以终止
令牌结尾的令牌。这个令牌序列被映射到使用学习
嵌入的正文的正确维度。在输出端，语言模态采用身体的解码输出，并
执行学习的线性映射，然后是Softmax，导致
令牌词汇表上的概率分布。
LanguageModalityin（x; WE）= WE·x
LanguageModalityout（x; WS）= Softmax（WS·x）
2.5.2图像形态网络
图像输入形式类似于Xception入口流程[5]。
使用我们称之为ConvRes并定义为的残余卷积块，输入图像的特征深度逐渐加深
如下：
c1（x; F）= ConvStepf = F（W3×3; x）
c2（x; F）= ConvStepf = F（W3×3; c1（x; F））
p1（x; F）=
（x; F）= p1（x; F）+ ConvSteps = 2（W 1 x 1; x）; MaxP ool2（[3×3]; c2
其中MaxP ools（[h×w]; x）是x上的一个max-pooling层，具有步幅和窗口形状[h×w]。
具有网络深度d（我们使用d = 1024）的ImageModality输入流被定义为：
h1（x）= ConvSteps = 2; f = 32（W3×3; x）
h2（x）= ConvStepf = 64
（x）= x3 ; h1（x））r1（x）= ConvRes（h2（x）; 128）
r2（x）= ConvRes（r1（x）; 256）
ImageModality（x）= ConvRes
2.5.3分类形式网
分类输出形式类似于Xception出口流[5]。如果网络输入是
二维数据，如图像或频谱音频数据，然后将
模型体的一维输出再次重新整形为二维，接着是渐进式下采样：
skip（x）= ConvSteps = 2（Wskip 3× 3; X）
H1（x）= ConvStep（Wh31×3; X）
H 2（X）= ConvStep（Wh32×3; H1（X））
H3（X）=跳过（X）+ MAXP ool2（[3×3
h4 （x））h4（x）= ConvStepf = 1536（Wh34×3; h3（x））
h5（x）= ConvStepf = 2048（W3×3; h4（x））
h6（x）= GlobalAvgP ool（ReLU（h5（x）））
CategoricalModalityout（x）= P ointwiseConv（W类; h6（x））
GlobalAvgP ool表示跨所有空间和时间维度取的平均值。
2.5.4音频模态网
我们以一维波形的形式随时间接受音频输入或作为二维
频谱图。波形和频谱输入模式都使用来自
ImageInputModality（第2.5.2节）的8个ConvRes块的堆栈。第i个块的形式为：li = ConvRes（li-1; 2i）。
谱模态不沿着频率点维度进行任何步进，保持
频谱域中的全分辨率。
2.6相关模型
MultiModel架构是从应用于神经
机器翻译的收发器编码器 - 解码器架构中提取出来的。早期的序列到翻译序列模型[
27,3,4 ]使用具有长期短期记忆细胞的递归神经网络（RNN）[9]）。卷积架构产生了
从文献[10]和文献[19]开始的词级神经机器翻译结果良好。这些
早期的模型在卷积之上使用了一个标准的RNN来生成输出，并且在
那里存在一个瓶颈，尤其是在较长的句子上，这与
RNN序列到序列模型没有注意的限制相类似[ 27,4]。全卷积神经机器
翻译没有这个瓶颈在[16,11]。扩展神经
GPU （Extended Neural GPU）[16]中的模型使用循环堆栈的门控卷积层，而[11]（ByteNet）中的模型没有
递归，在解码器中使用了左缓冲卷积。这个想法介绍进来
WaveNet [29]也用于MultiModel（见上文），显着提高了效率。深度
可分离的卷积首先由Sifre [26]研究，随后
用Xception 获得了大规模图像分类的良好结果[5]。
3实验
我们使用TensorFlow实现了上述的MultiModel体系结构，并对其进行
了多种配置训练。在下面报告的所有训练运行中，我们使用相同的一组超参数和Adam优化器[12]进行梯度裁剪。我们将发布实施
6问题MultiModel（联合8问题）最先进的
ImageNet（前5精度）86％95％
WMT EN！DE（BLEU）21.2 26.0
WMT EN！FR（BLEU）30.5 40.5
表1：比较MultiModel与[28]和[21]的最新技术。
问题
联合8问题单问题
日志（perpexity）精度日志（困惑）精度
ImageNet 1.7 66％1.6 67％
WMT EN！DE 1.4 72％1.4 71％
WSJ语音4.4 41％5.7 23％
解析0.15 98％0.2 97％
表2：在8个任务上共同训练的多模型的比较，并分别在每个任务上。
作为开放源代码以及我们的设置细节和所有使用的超参数。我们集中我们的
实验，以回答以下问题：
（1）MultiModel从最先进的结果同时训练8个任务有多远？
（2）如何将8个任务的训练同时分别与每个任务的训练进行比较？
（3）上面讨论的不同计算块如何影响不同的任务？
在回答上述问题时，我们并不总是考虑所有8个问题。尤其是这四个
翻译问题表现得非常相似，所以我们决定在每个比较中都不包含它们，
而是集中在更多变的问题上。
为了回答问题（1），我们将8题MultiModel的性能与表1中的当前状态结果进行比较。在调整MultiModel的超参数方面，我们没有投入太多时间，
所以我们相信差异看到有更多的调整会变得更小。该
我们实现的结果与特定任务模型没有重调整的结果类似，例如在
英法翻译方面，我们对去年报告的扩展神经GPU结果进行了改进[16]。
为了回答问题（2），我们将单独训练的MultiModel与单独训练的MultiModel进行比较。当共同训练8个任务时，我们
对每个任务都有一个单独的工人训练，模型的共同参数。当对一项任务进行训练时，我们只
对这项任务进行一次单独的工人训练，进行类似的步骤。由于我们正在比较
同一模型的不同实例，我们报告了两个内部度量标准：负对数 - 困惑度和
每令牌精度（在开发集上测量）。从表2的结果可以看出，
联合8问题模型在大型任务上的表现类似于单一模型，而
在数据较少的任务（如解析）方面有更好的表现。
考虑到
翻译任务中的大量文本数据，表2中所见的解析方面的巨大改进并不令人惊讶。但是我们很好奇，如果用
一个看似不相关的工作ImageNet解析，也会带来任何改进。事实确实如此，如
表3所示。性能的差异是显着的，因为我们同时使用辍学和早期
我们猜测这与过度拟合无关。相反，似乎
在不同的任务之间共享计算原语，甚至允许在
ImageNet和解析等看似不相关的任务之间进行一些转换学习。
为了回答问题（3），我们检查了没有专家混合层或没有
注意机制的训练如何影响不同问题的表现。由于这两种机制
都是以机器翻译为目的而设计的，所以我们检查了英文 - 法文翻译。但是我们
也包括ImageNet，因为这是从这些块中受益最少的问题。在
事实上，人们可以想到的是消除这些区块将单独如果提高ImageNet性能
他们真的没用这个任务。相比之下，我们在表4中看到，这些块或者不影响
7Problem
单独W / ImageNet W / 8的问题
日志（PPL）累计。完整日志（ppl）acc。完整日志（ppl）acc。全
分析0.20 97.1％11.7％0.16 97.5％12.7％0.15 97.9％14.5％
表3：使用ImageNet和其他8个任务单独进行训练分析的结果。我们报告
对数困惑，每个令牌的准确性，以及完全正确的分析树的百分比。
问题
所有没有
MoE的块没有注意力日志（perpexity）准确性log（困惑）准确性log（困惑）准确性
ImageNet 1.6 67％1.6 66％1.6 67％
WMT EN！FR 1.2 76％1.3 74％1.4 72％
表4：消除MultiModel培训中的专家混合和注意力。
或略微提高性能。这导致我们得出结论：混合不同的计算块
实际上是提高许多不同任务性能的好方法。
4结论
我们首次证明，单一的深度学习模式可以共同学习
多个领域的大规模任务。成功的关键在于设计一个多模式
体系结构，其中尽可能多的参数是共享的，以及使用
来自不同域的计算块。我们相信这是一条走向有趣的未来工作的道路
更一般的深度学习架构，特别是因为我们的模型显示从
具有大量可用数据的任务转移到数据受限的任务。
参考文献
[1] Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Lukasz Kaiser Illia Polosukhin
Ashish Vaswani，Noam Shazeer。注意是你所需要的。arXiv预印本arXiv：1706.03762,2017
。
[2] Jimmy Lei Ba，Jamie Ryan Kiros和Geoffrey E Hinton。层规范化。arXiv预印本
arXiv：1607.06450，2016。
[3] Dzmitry Bahdanau，Kyunghyun Cho和Yoshua Bengio。神经机器翻译通过联合
学习来对齐和翻译。CoRR，abs / 1409.0473,2014。URL http://arxiv.org/abs/
1409.0473。
[4] Kyunghyun Cho，Bart van Merrienboer，Caglar Gulcehre，Fethi Bougares，Holger
Schwenk和Yoshua Bengio。学习使用rnn编码器 - 解码器进行统计
机器翻译的短语表示。CoRR，abs / 1406.1078，2014. URL http://arxiv.org/abs/1406。
1078.
[5]弗朗索瓦Chollet。Xception：深度学习与深度可分卷积。arXiv
预印本arXiv：1610.02357,2016。
[6] Ronan Collobert和Jason Weston。自然语言处理的统一架构：
具有多任务学习的深度神经网络。在第25届国际
机器学习会议论文集，第160-167页，2008年。
[7]语言数据联盟等。Csr-ii（wsj1）完成。语言数据联盟，费城，第一卷。LDC94S13A，1994。
[8] George E. Dahl，Dong Yu，Li Deng和Alex Acero。
用于大词汇量语音识别的上下文相关的预训练的深度神经网络。IEEE Transactions on Audio，Speech
＆Language Processing，20（1）：
30-42，2012 . 8 [9] Sepp Hochreiter和JürgenSchmidhuber。长期的短期记忆。神经计算，9（8）：
1735-1780,1997。
[10] Nal Kalchbrenner和Phil Blunsom。经常性连续翻译模型。在
Proceedings EMNLP 2013，pages 1700-1709，2013. URL http://nal.co/papers/
KalchbrennerBlunsom_EMNLP13。
[11] Nal Kalchbrenner，Lasse Espeholt，Karen Simonyan，Aaron van den Oord，Alex Graves和Koray Kavukcuoglu。线性时间的神经机器翻译。arXiv预印本arXiv：1610.10099,2016
。
[12] Diederik P. Kingma和Jimmy Ba。Adam：随机优化的一种方法。CoRR，
abs / 1412.6980,2014。URL http://arxiv.org/abs/1412.6980。
[13] Alex Krizhevsky，Ilya Sutskever和Geoffrey Hinton。深度
卷积神经网络的Imagenet分类。在神经信息处理系统的进步，2012。
[14]崇易林迈克尔·梅尔塞尔J. Belongie，卢博米尔·D·伯迪维，罗斯·B·吉希克，詹姆斯
海斯，皮特罗·佩罗纳，德瓦Ramanan，彼得美元，和C劳伦斯·齐特尼克微软COCO：
上下文中的常见对象。CoRR，abs / 1405.0312,2014。URL http://arxiv.org/abs/
1405.0312。
[15] Francois CholletŁukaszKaiser，Aidan N. Gomez。神经
机器翻译的深度可分卷积。arXiv预印本arXiv：1706.03059，2017。
[16] Samy BengioŁukaszKaiser。活动内存可以替换吗？在神经
信息处理系统的进展，（NIPS），2016。
[17]米切尔P马库斯，比阿特丽斯圣托里尼，玛丽安·Marcinkiewicz和安泰勒。
Treebank -3 ldc99t42。光盘。Penn：Linguistic Data Consortium，1999.
[18] Quoc V. Le Maxim Krikun Yonghui Wu Zhifeng Chen Nikhil Thorat FernandaViégasMartin
瓦滕伯格格雷格科拉多麦克德夫休斯杰弗里院长梅尔文约翰逊，迈克舒斯特。
Google的多语言神经机器翻译系统：启用零点翻译。arXiv
预印本arXiv：1611.04558,2016。
[19]蒙在东，卢正东，王明选，李航，姜文斌，刘群。
用卷积神经网络对机器翻译进行源语言编码。在ACL中，
第20-30页，2015。
[20] Jiquan Ngiam，Aditya Khosla，Mingyu Kim，Juhan Nam，Honglak Lee和Andrew Y. Ng。
多模态深度学习。在ICML’11会议论文集，第689-696页，2011年。
[21] Krzysztof Maziarz Andy Davis Quoc Le Geoffrey Hinton Jeff Dean Noam Shazeer，Azalia Mirhoseini。令人难以置信的大型神经网络：稀疏的门控混合专家
层。arXiv预印本1701.06538,2017。
[22] Bernardino Romera-Paredes，Andreas Argyriou，Nadia Berthouze和Massimiliano Pontil。
利用多任务学习中不相关的任务。在AISTATS’12的JMLR论文集，页
951-959，2012.
[23]奥尔加·拉塞尔科弗斯基，吉亚·邓，郝苏乔纳森·克劳斯，桑吉弗·萨特什，肖恩马，茨·哈
，安德烈杰·卡帕西，阿迪蒂亚·科斯拉，迈克尔·伯恩斯坦，亚历山大Ç伯格和李飞飞。
ImageNet大规模视觉识别挑战。国际计算机视觉杂志
（IJCV），115（3）：211-252,2015。doi：10.1007 / s11263-015-0816-y。
[24]迈克尔L·Seltzer和Jasha Droppo。深度神经网络中的多任务学习改进了
音素识别。在IEEE国际声学，
语音和信号处理会议（ICASSP’13），2013年。
[25]里科Sennrich，巴里Haddow，和亚历山德拉桦木。稀有词的神经机器翻译与子词
单位。CoRR，2015。9
[26] Laurent Sifre和StéphaneMallat。用于
纹理辨别的旋转，缩放和变形不变散射。2013年IEEE计算机视觉和模式识别会议
，2013年6月23 - 28日，美国俄勒冈州波特兰，1233-1240,2013。
[27] Ilya Sutskever，Oriol Vinyals和Quoc VV Le。用神经
网络进行序列学习的顺序。在神经信息处理系统的进步，3104-3112页，2014
网址http://arxiv.org/abs/1409.3215。
Christian Szegedy，Sergey Ioffe和Vincent Vanhoucke。初始-v4，初始 - 再次和
残余连接对学习的影响。CoRR，abs / 1602.07261,2016。
[29]Aäronvan den Oord，Sander Dieleman，Heiga Zen，Karen Simonyan，Oriol Vinyals，Alex
Graves，Nal Kalchbrenner，Andrew Senior和Koray Kavukcuoglu。Wavenet：
原始音频的生成模型。CoRR abs / 1609.03499,2016。
Fisher Yu和Vladlen Koltun。多尺度上下文聚合扩展卷积。arXiv
预印本arXiv：1511.07122，2015.
[31] Loy CC Tang X. Zhang Z.，Luo P.深度多任务学习的面部标志检测。在
ECCV’14,2014年的会议录
10