这里写目录标题
摘要
- 浅层前馈神经网络(shallow feed-forward nets)能够学习与深层网络相同的函数,并且能达到只使用深度模型能达到的准确性
- 当与深浅模型的参数量相同时,浅层模型可以高保真地模仿具深层网络
1. 介绍
研究基础
理论上,有足够大的单个sigmoid单元隐藏层的网络可以近似解决任何决策边界
但是,在实际实验中,想要把浅层网络的性能训练得和深度网络一样得accurary是困难的和具有挑战的
做到了!!
然而,在本文中用实验证明了浅层网络能和深度网络学习相同的函数,有时和深度网络有相同的数量的参数
具体过程
首先先训练一个深度模型,之后用浅层模型来模仿深度模型,这个模拟过程采用了模型压缩的训练方法
提出观点
如果一个使用和深度网络同样数量的参数的浅层网络,能够很好的模仿深度网络,那么可以说深度网络不需要那么深
2. 训练浅层网络去模仿深度网路
2.1 模型压缩
文中的模型压缩指的是:训练一个紧凑的模型近似一个更复杂的模型学习到的函数
方法是将unlabeded的数据传递到精准的大型模型,收集该模型产生的分数,然后综合以上内容产生新的labels,使用这些综合labels的数据来训练小型模型。如果小型模型完美地模仿大型模型,它会做出与复杂模型完全相同的预测和错误
但是通常不可能在原始训练数据上训练一个小型网络模型,使其达到与复杂模型一样准确
2.2 Mimic Learning via Regressing Logit with L2 Loss
使用logits的输出,softmax的输入
z
i
\ z_i
zi来作为标签来直接训练浅层网络,不使用激活函数softmax输出的概率分布
好处:捕获不明显信息,避免信息丢失,更好学习深层模型内部
SNN-MIMIC 学习的目标函数:
2.3 Speeding-up Mimic Learning by Introducing a Linear Layer
在输入层和非线性隐藏层之间引入一个具有 k个线性隐藏单元的线性层可以显着加快学习速度:将
W
H
∗
D
\ W_{H * D}
WH∗D(输入特征和隐藏层之间的权重矩阵)分为两个低秩矩阵
U
H
∗
k
\ U_{H * k}
UH∗k和
V
k
∗
D
\ V_{k * D}
Vk∗D的乘积(U V),k<< D,H。新的损失函数:
作用:提高收敛速度、减少存储空间,从O(H D)减少到O(k(H+D))
3.TIMIT Phoneme Recognition(实验一)
Deep Learning on TIMIT
- 前三个网络分别为具有8k、50k、400k个隐藏单元的神经网络(trained on original data),这些浅层网络的参数数量是DNN、CNN、ECNN的十倍,但它们的准确率却低于深层网络。
Learning to Mimic an Ensemble of Deep Convolutional TIMIT Models
- 教师模型:在这六个模型中ECNN的效果最好,所以选择ECNN
- 学生模型:分别含有 8k (SNN-MIMIC-8k) 和 400k (SNN-MIMIC-400k)个ReLUs隐藏单元的浅层网络。
Compression Results
- 具有一个隐藏层的神经网络 (SNN-MIMIC-8k) 可以被训练为与具有相似数量参数的DNN一样好
- 增加隐藏单元的数量(SNN-MIMIC-400k)可以被训练得和CNN相比,即使该网络没有卷积层或池化层
4. Object Recognition: CIFAR-10(实验2)
Learning to Mimic a Deep Convolutional Neural Network
- 浅层网络(SNN-MIMIC 模型包括一个卷积和最大池化层,然后是完全连接的 1200 个线性单元和 30k个非线性单元)达到了与有多个卷积和池化层的 CNN 相当的精度
- 随着教师模型性能的提高,浅层模型的准确性继续提高
5.讨论
5.1 Why Mimic Models Can Be More Accurate than Training on Original Labels
在从其他模型中提取的预测目标上训练的模型可能比在原始标签上训练的模型更准确,原因:
- 如果某些标签有错误,教师模型可能会消除其中一些错误(即审查数据),从而使学生模型更容易学习
- 教师模型过滤目标消除了数据集的复杂性,给学生模型提供更软更简单的信息
- 与原始的0/1标签相比,教师模型的不确定性指导学生模型时能提供更多的信息
以上机制有助于防止学生模型中的过度拟合。模型压缩似乎是一种正则化形式,可以有效地缩小浅层模型和深层模型之间的差距
5.2 The Capacity and Representational Power of Shallow Models
-
随着教师模型准确性的提高,学生模型的准确性继续提高
-
在对相同目标进行训练时,SNN-MIMIC-8k 的性能总是比参数多 10 倍的 SNN-MIMIC-160K 差
-
较小的浅层模型最终能够通过向更好的老师学习,达到与较大的浅层网络相当的性能,缩小模型之间存在的差距
-
如果有更准确的教师模型和/或更多未标记的数据,具有与深度模型相同参数的浅层模型可能能够学习更准确的函数
7. 结论
- 浅层神经网络可以训练到以前只有深层模型才能实现的性能,在TIMIT语音音素识别和CIFAR-10图像识别任务上都可以实现。
- 模仿深层模型的单层全连接前馈神经网络的表现与精心设计的复杂深层卷积架构相似。
这些结果表明
- 深度学习的优势可能部分来自于深层架构与当前的训练过程之间的良好匹配
- 有可能设计出更好的学习算法来训练更准确的浅层前馈神经网络
- 对于给定的参数数量,深度可能会使学习更容易,但并不总是必需的
相关知识点
参考
前馈神经网络
决策边界
表征学习
表征学习可以学习数据的底层结构,分析原始数据的特性,同时还可以提取数据的底层结构。监督式学习是特征学习的一种,使用被标记过的数据当作特征来学习
论文学习