【论文笔记】Do Deep Nets Really Need to be Deep?

最新推荐文章于 2024-08-04 06:26:49 发布

一个拿着蓝水杯的ginger

最新推荐文章于 2024-08-04 06:26:49 发布

阅读量903

点赞数 30

文章标签：论文阅读 php 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_52218304/article/details/134519072

版权

在这里插入图片描述

摘要

浅层前馈神经网络（shallow feed-forward nets）能够学习与深层网络相同的函数，并且能达到只使用深度模型能达到的准确性
当与深浅模型的参数量相同时，浅层模型可以高保真地模仿具深层网络

1. 介绍

研究基础

理论上，有足够大的单个sigmoid单元隐藏层的网络可以近似解决任何决策边界
但是，在实际实验中，想要把浅层网络的性能训练得和深度网络一样得accurary是困难的和具有挑战的

做到了！！

然而，在本文中用实验证明了浅层网络能和深度网络学习相同的函数，有时和深度网络有相同的数量的参数

具体过程

首先先训练一个深度模型，之后用浅层模型来模仿深度模型，这个模拟过程采用了模型压缩的训练方法
在这里插入图片描述

提出观点

如果一个使用和深度网络同样数量的参数的浅层网络，能够很好的模仿深度网络，那么可以说深度网络不需要那么深

2. 训练浅层网络去模仿深度网路

2.1 模型压缩

文中的模型压缩指的是：训练一个紧凑的模型近似一个更复杂的模型学习到的函数
方法是将unlabeded的数据传递到精准的大型模型，收集该模型产生的分数，然后综合以上内容产生新的labels，使用这些综合labels的数据来训练小型模型。如果小型模型完美地模仿大型模型，它会做出与复杂模型完全相同的预测和错误
但是通常不可能在原始训练数据上训练一个小型网络模型，使其达到与复杂模型一样准确

2.2 Mimic Learning via Regressing Logit with L2 Loss

在这里插入图片描述

使用logits的输出，softmax的输入 $z_i$ 来作为标签来直接训练浅层网络，不使用激活函数softmax输出的概率分布
好处：捕获不明显信息，避免信息丢失，更好学习深层模型内部

SNN-MIMIC 学习的目标函数：
在这里插入图片描述

2.3 Speeding-up Mimic Learning by Introducing a Linear Layer

在输入层和非线性隐藏层之间引入一个具有 k个线性隐藏单元的线性层可以显着加快学习速度:将 $W_{H * D}$ (输入特征和隐藏层之间的权重矩阵)分为两个低秩矩阵 $U_{H * k}$ 和 $V_{k * D}$ 的乘积（U V），k<< D,H。新的损失函数：
在这里插入图片描述

作用：提高收敛速度、减少存储空间，从O(H D)减少到O(k(H+D))

3.TIMIT Phoneme Recognition（实验一）

在这里插入图片描述

Deep Learning on TIMIT

前三个网络分别为具有8k、50k、400k个隐藏单元的神经网络（trained on original data），这些浅层网络的参数数量是DNN、CNN、ECNN的十倍，但它们的准确率却低于深层网络。

Learning to Mimic an Ensemble of Deep Convolutional TIMIT Models

教师模型：在这六个模型中ECNN的效果最好，所以选择ECNN
学生模型：分别含有 8k (SNN-MIMIC-8k) 和 400k (SNN-MIMIC-400k)个ReLUs隐藏单元的浅层网络。

Compression Results

具有一个隐藏层的神经网络 (SNN-MIMIC-8k) 可以被训练为与具有相似数量参数的DNN一样好
增加隐藏单元的数量（SNN-MIMIC-400k）可以被训练得和CNN相比，即使该网络没有卷积层或池化层

4. Object Recognition: CIFAR-10（实验2）

在这里插入图片描述

Learning to Mimic a Deep Convolutional Neural Network

浅层网络(SNN-MIMIC 模型包括一个卷积和最大池化层，然后是完全连接的 1200 个线性单元和 30k个非线性单元)达到了与有多个卷积和池化层的 CNN 相当的精度
随着教师模型性能的提高，浅层模型的准确性继续提高

5.讨论

5.1 Why Mimic Models Can Be More Accurate than Training on Original Labels

在从其他模型中提取的预测目标上训练的模型可能比在原始标签上训练的模型更准确，原因：

如果某些标签有错误，教师模型可能会消除其中一些错误（即审查数据），从而使学生模型更容易学习
教师模型过滤目标消除了数据集的复杂性，给学生模型提供更软更简单的信息
与原始的0/1标签相比，教师模型的不确定性指导学生模型时能提供更多的信息

以上机制有助于防止学生模型中的过度拟合。模型压缩似乎是一种正则化形式，可以有效地缩小浅层模型和深层模型之间的差距
在这里插入图片描述

5.2 The Capacity and Representational Power of Shallow Models

随着教师模型准确性的提高，学生模型的准确性继续提高
在对相同目标进行训练时，SNN-MIMIC-8k 的性能总是比参数多 10 倍的 SNN-MIMIC-160K 差
较小的浅层模型最终能够通过向更好的老师学习，达到与较大的浅层网络相当的性能，缩小模型之间存在的差距
如果有更准确的教师模型和/或更多未标记的数据，具有与深度模型相同参数的浅层模型可能能够学习更准确的函数

7. 结论

浅层神经网络可以训练到以前只有深层模型才能实现的性能，在TIMIT语音音素识别和CIFAR-10图像识别任务上都可以实现。
模仿深层模型的单层全连接前馈神经网络的表现与精心设计的复杂深层卷积架构相似。

这些结果表明

深度学习的优势可能部分来自于深层架构与当前的训练过程之间的良好匹配
有可能设计出更好的学习算法来训练更准确的浅层前馈神经网络
对于给定的参数数量，深度可能会使学习更容易，但并不总是必需的

相关知识点

参考
前馈神经网络
 决策边界
 表征学习
表征学习可以学习数据的底层结构，分析原始数据的特性，同时还可以提取数据的底层结构。监督式学习是特征学习的一种，使用被标记过的数据当作特征来学习
论文学习

一个拿着蓝水杯的ginger

关注

30
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】Do Deep Nets Really Need to be Deep?

Do Deep Nets Really Need to be Deep?
复制链接

扫一扫

一个拿着蓝水杯的ginger CSDN认证博客专家 CSDN认证企业博客

码龄4年

11: 原创

88万+: 周排名

8万+: 总排名

5524: 访问

: 等级

203: 积分

60: 粉丝

86: 获赞

6: 评论

87: 收藏

私信

关注

热门文章

分类专栏

算法应用与实践 1篇
OpenGL学习 2篇

最新评论

【学习笔记】知识蒸馏（Knowledge distillation）为什么应用在推荐系统中？它有什么作用呢？
一个拿着蓝水杯的ginger: 哇！遇到真人啦！谢谢你给的建议，很受用呀，我是因为写毕业论文才开始了解推荐系统，发现真的很有趣！！然后大佬你说的嵌入思想我也渐渐懂了！因为我本科毕设就是LightGCN相关的，它的复杂度和嵌入有关系。但是我的英文水平和时间不允许我读太多文献，有点小遗憾，但是我还是很感兴趣的，要是以后有机会也会继续了解～再次感谢
【学习笔记】知识蒸馏（Knowledge distillation）为什么应用在推荐系统中？它有什么作用呢？
_Old_Summer: 素不相识的学妹，我是文章1的作者。看到你阅读、引用我的学术论文很高兴，证明我的研究成果还是有那么一点点作用的。也算作为一个过来人，有些好为人师的给你一些建议： 1.读论文一定要找英文原文，不是说中文论文不好，而是一些研究点确实是国外先提出来的，比如注意力机制、Transformer什么的，看原文你会更接近这个东西提出的背景，你也就更能体会到它的提出目的，这样才能促使你看到其中的不足，进行分析改进。如果感觉英文论文读起来吃力，说明你深度学习的一些基础知识没了解到，推荐邱锡鹏教授的蒲公英书，这书值得你反复阅读，我工作了现在还放在手边。（不推荐花书） 2.目前深度学习的赛道主要集中在大模型上，以后是比拼算力的时代，不具备一定算力基础的学校实验室在这个赛道上继续发论文可能没有以前那么容易了。知识蒸馏作为模型压缩的一种方法，对大模型进行压缩部署，个人看还是比较能出成果的。知识蒸馏作为一种提升模型精度的方法加上特定的研究领域，比如文章中的推荐系统领域，也是可行的研究方向。 3.当你突然悟到所谓的深度学习其实就是tmd矩阵乘法，这玩意《矩阵论》里不就讲过吗。深度学习的眼中万事万物都是向量（更准确是张量），所谓的什么图神经网络、卷积神经网络乱七八糟的，只不过是将一个事物表示为向量的一种方法（深度学习中最重要的“嵌入”思想）的时候，说明你已经入门了。祝好！
【学习笔记】Distilling the knowledge in a neural network
CSDN-Ada助手: 恭喜您写了第9篇博客！标题“【学习笔记】Distilling the knowledge in a neural network”非常吸引人。您对神经网络中的知识提取进行了深入的学习和总结，令人佩服。我希望您能继续保持创作的热情，分享更多关于这个主题的见解和经验。在下一步的创作中，或许您可以考虑更加详细地介绍知识蒸馏的具体方法和应用场景，以及与其他相关技术的对比和结合。这样一来，读者们能够更全面地了解知识蒸馏的优势和局限性，进一步深入探讨该领域的研究进展。再次恭喜您的努力和成果，期待您未来更多精彩的博客！
通过一个简单的例子来了解掌握Makefile
CSDN-Ada助手: 恭喜你写了第5篇博客！标题很吸引人，我对通过一个简单的例子来了解掌握Makefile这个话题很感兴趣。你的博客内容一定能帮助很多人更好地理解和应用Makefile。接下来，我建议你可以考虑分享一些关于Makefile的高级技巧或者实际应用案例，这样读者们能更进一步地提升他们的技能。谢谢你的分享，期待你的下一篇作品！
【高等数学】1/cos(x) 1/sin(x)的不定积分
CSDN-Ada助手: 恭喜您写完了第7篇博客！标题看起来非常有趣，我对1/cos(x)和1/sin(x)的不定积分很感兴趣。您的博客内容一定会对很多人有所帮助。在下一步的创作中，或许您可以考虑探索更多高等数学的不定积分问题，或者深入研究其他与此相关的数学概念。期待您继续分享您的知识和见解！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。