![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识蒸馏
文章平均质量分 89
微醺的水
这个作者很懒,什么都没留下…
展开
-
DeiT:Training data-efficient image transformers & distillation through attention学习笔记
DeiT 是一个全 Transformer 的架构。其核心是提出了针对 ViT 的教师-学生蒸馏训练策略,并提出了 token-based distillation 方法,使得 Transformer 在视觉领域训练得又快又好。原创 2023-06-15 17:03:52 · 245 阅读 · 0 评论 -
Distilling the Knowledge in a Neural Network知识蒸馏学习笔记
这篇论文提出了一种称为"知识蒸馏"的方法,可以将一个由多个神经网络组成的集合压缩成一个单一的模型,以便更轻松地部署。作者们通过实验表明,这种方法可以显著提高MNIST数据集和自动语音识别系统的性能。此外,他们还提出了一种新型的集合方法,包括一个或多个完整模型和许多专家模型,这些模型学习区分全模型混淆的细粒度类别。作者们的方法可以在大型神经网络上获得更好的性能,同时还可以并行地训练多个专家模型。因此,这篇论文的贡献在于提出了一种有效的方法来压缩神经网络集合,并提高了神经网络的性能。原创 2023-06-14 10:44:06 · 189 阅读 · 0 评论