知识蒸馏 Knowledge distillation（学习笔记）

最新推荐文章于 2024-03-19 09:28:58 发布

东东要拼命

最新推荐文章于 2024-03-19 09:28:58 发布

阅读量680

点赞数

分类专栏：小陈读paper系列文章标签：深度学习人工智能学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_68308828/article/details/128627746

版权

小陈读paper系列专栏收录该内容

31 篇文章 1 订阅

订阅专栏

知识蒸馏概述

蒸馏：把大的复杂的东西变成小的纯净的东西

在知识蒸馏中大的模型为教师模型（teacher）臃肿集成牛逼复杂的

小的为学生模型（student）小的精干的 轻量化的

这里有一个知识的迁移

因为落地实现的终端边缘设备的算计十分有限

所以急需将一个大的优秀的模型压缩成一个小巧精干的轻量化模型

这张图它背后的含义是预训练的大模型的增长速率时很恐怖的比摩尔定律还大

而我们小设备的算力提升是很受限的，所以这个知识蒸馏技术就显得尤为重要

然而目前而言要想调用大模型的功能

就把大模型放在云端，通过api来调用（就会面临网络延迟网络的一系列问题）

轻量化技术

1.压缩已经训练好的模型

知识蒸馏权值量化剪枝（权重剪枝通道剪枝（结构化剪枝非结构化剪枝））注意力迁移

2.直接设计训练轻量化网络

3加速卷积运算（数值运算）

4.硬件部署

NIPS 2014

Hinton (AI 教父）Jeff Dean（谷歌天才程序员）

如何让教师网络把知识教给学生网络

hard targets soft targets

马 1 马 0.7

驴 0 驴 0.25

汽车 0 汽车 0.05

hard targets 用来训练教师网络，缺点是不能反映出马和驴的相似之处

而soft targets课传递更多的信息供学生网络学习

这里的hard targets 更像是死板的教科书

soft targets 就像是老师能教授更多知识

所以 soft targets 用来训练学生网络

而知识蒸馏需要设定一个蒸馏温度 T

当T= 1 的时候，就是学习普通的softmax

但是softmax 的信息还不够丰富曲线不够顺滑

所以这里引入的蒸馏温度是想让每一个类别的相对大小更加明显

当然这里如果太极端的话 T取得很大就会导致两极分化非常不明显甚至有可能就是一条平行于x 轴的直线

这里学生模型想要学习的是没给类别的相对信息

知识蒸馏的好处

1.soft label可以防止过拟合

2.泛化性能very good

3.零样本学习（这里可以提及一嘴：没有标签的数据直接放进教师模型来获取标签。之后直接让学生模型去学习soft loss即可妈祖无监督训练需求）

4.学生模型是一个轻量化的网络

知识蒸馏的应用场景

1.模型压缩

2.优化训练防止过拟合（潜在的正则化）

3.无限大的无监督数据集的数据挖掘

4.少样本 0样本的学习

这里给出迁移学习 和 知识蒸馏 的区别

迁移学习只是 domain领域知识的泛华从猫狗分类到 x 光医学的分类

知识蒸馏是模型到模型的从一个复杂臃肿的大模型到一个小巧精干的小模型完成轻量化的蜕变

知识蒸馏背后的机理

label smoothing 和 soft targets的区别

知识蒸馏的研究方向

1.教学相长 T-S S-T

2.助教多个老师多个学生

3.知识的表示（中间的featuremap（feature based）或者是最原始的 softmax（response based））

4.多模态（视觉语音文本）

东东要拼命

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

东东要拼命 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。