1背景
深度学习在很多领域都取得了巨大的成功, 但是计算代价却非常昂贵,通常需要高性能的GPU进行计算。随着智能手机等小型化智能终端设备的不断发展, 在端侧设备上部署深度学习模型的需求也越来越强烈。然而当前的深度学习模型通常很大以至于难以部署到端侧设备上, 一个很自然的想法就是想办法减小模型的大小, 这就是当前模型压缩的出发点。知识蒸馏是模型压缩中一种常用的手段。
有人可能会说, 既然先找到一个大模型, 在从大模型压缩到小模型, 不是多此一举吗, 为什么不能一开始就设计一个小模型呢?这是因为直接找到一个性能可以媲美大模型的小模型是比较困难的。 模型压缩的方法算是一种曲线救国的方式吧。直接设计性能较好的小模型应该也是一个很有潜力的研究方向。
2 基本原理介绍
3 实践
可参考: 知识蒸馏(Knowledge Distillation)实例教程
参考资料:
【1】https://my.oschina.net/u/1416903/blog/4532261 一个知识蒸馏的简单介绍, 一看就懂
【2】https://zhuanlan.zhihu.com/p/90049906 知识蒸馏是什么, 一份入门随笔