论文浅尝 | 深度神经网络的模型压缩

最新推荐文章于 2025-02-07 19:40:37 发布

开放知识图谱

最新推荐文章于 2025-02-07 19:40:37 发布

阅读量619

点赞数

文章标签： dnn 人工智能神经网络深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/133819991

版权

本文针对Hinton提出的知识蒸馏法进行扩展，允许Student网络比Teacher网络更深更窄，使用teacher网络的输出和中间层特征作提示，改进训练过程和student网络性能。引入intermediate - level hints，提出adaptation layer。在CIFAR - 10和SVHN数据集实验，证明该方法有效。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔记整理：闵德海，东南大学硕士，研究方向为知识图谱

链接：https://arxiv.org/abs/1412.6550

动机

提高神经网络的深度通常可以提高网络性能，但它也使基于梯度的训练更加困难，因为更深的网络往往更加强的非线性。最近提出的知识蒸馏方法旨在获得小型和快速执行的模型，它已经表明参数量较小的学生网络可以较好的模仿更大的教师网络或网络集群的Soft Output。

在本文中，我们扩展了这一思想，允许训练一个比教师模型更深更薄的学生模型，不仅使用输出层的信息，还使用教师模型学习到的中间表示作为提示，以改善学生模型的训练过程和最终表现。由于学生模型中间隐含层一般会小于教师模型中间隐含层，因此引入附加参数将学生模型隐含层映射到教师隐含层的预测。

这使得我们可以训练更深的学生模型，他们可以更好地泛化或者运行得更快（这由所选学生模型的能力的权衡控制）。例如，在CIFAR-10上，我们完成了一个参数少近10.4倍的深度学生网络比一个更大、最先进的教师网络表现更好。

主要解决的问题

论文主要针对Hinton提出的知识蒸馏法进行扩展，允许Student网络可以比Teacher网络更深更窄，使用teacher网络的输出和<

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。