知识蒸馏中的知识

最新推荐文章于 2023-02-24 17:13:32 发布

想努力的人

最新推荐文章于 2023-02-24 17:13:32 发布

阅读量694

点赞数 2

分类专栏：机器学习自然语言处理

原文链接：https://www.cnblogs.com/jins-note/p/9679450.html

版权

自然语言处理同时被 2 个专栏收录

26 篇文章 0 订阅

订阅专栏

20 篇文章 0 订阅

订阅专栏

https://www.cnblogs.com/jins-note/p/9679450.html

1. T参数是什么？有什么作用？

T参数为了对应蒸馏的概念，在论文中叫的是Temperature，也就是蒸馏的温度。T越高对应的分布概率越平缓，为什么要使得分布概率变平缓？举一个例子，假设你是每次都是进行负重登山，虽然过程很辛苦，但是当有一天你取下负重，正常的登山的时候，你就会变得非常轻松，可以比别人登得高登得远。

同样的，在这篇文章里面的T就是这个负重包，我们知道对于一个复杂网络来说往往能够得到很好的分类效果，错误的概率比正确的概率会小很多很多，但是对于一个小网络来说它是无法学成这个效果的。我们为了去帮助小网络进行学习，就在小网络的softmax加一个T参数，加上这个T参数以后错误分类再经过softmax以后输出会变大（softmax中指数函数的单增特性，这里不做具体解释），同样的正确分类会变小。这就人为的加大了训练的难度，一旦将T重新设置为1，分类结果会非常的接近于大网络的分类效果。

2. soft target（“软目标”）是什么？

soft就是对应的带有T的目标，是要尽量的接近于大网络加入T后的分布概率。

3. hard target（“硬目标”）是什么？

hard就是正常网络训练的目标，是要尽量的完成正确的分类。

4. 两个目标函数究竟是什么？

两个目标函数也就是对应的上面的soft target和hard target。这个体现在Student Network会有两个loss，分别对应上面两个问题求得的交叉熵，作为小网络训练的loss function。

5. 具体蒸馏是如何训练的？

　　Teacher：对softmax（T=20）的输出与原始label求loss。

　　Student：（1）对softmax（T=20）的输出与Teacher的softmax（T=20）的输出求loss1。

　　　　　　　（2）对softmax（T=1）的输出与原始label求loss2。

　　　　　　　（3）loss = loss1+loss2

想努力的人

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。