Knowledge Distillation(11)——teacher assistant

最新推荐文章于 2024-08-31 08:52:27 发布

judgechen1997

最新推荐文章于 2024-08-31 08:52:27 发布

阅读量1.1k

点赞数

分类专栏： Knowledge Distillation 知识蒸馏文章标签： DL ML

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/judgechen1997/article/details/101369250

版权

Knowledge Distillation 知识蒸馏专栏收录该内容

11 篇文章 12 订阅

订阅专栏

motivation: 希望a teacher can effectively transfer its knowl-
edge to students up to a certain size，
但有时gap太大，效果反而差，
正如mutual learning发现跟teacher学还不如和一个与自己目前水平相当（虽然网络结构差很多）的student学
所以助教的概念都出来了：
在这里插入图片描述
teacher student 差距太大，学习效果反而不好：

这个实验很有趣：
在这里插入图片描述
看完第三个因素后，我觉得是不是gap太大时，把T调大一点就好了啊……
不过可能也不对，毕竟这个teacher才10层，prediction也没有那么hard吧，有些论文里面teacher student都是resnet这种，也没听说T要调特别大

在这里插入图片描述

teacher和student之间引入一个TA是有效的，然而又有了这些问题：
在这里插入图片描述
作者说用accuracy平均，然后得到对应TA的层数

我觉得这种可操作性太差，平均accuracy对应多少层还不是得训练了才知道，直接(10+2)/2不好，求几何平均数我觉得更科学点 $\sqrt{10\times2}=4.5$

在这里插入图片描述
这个图也很有意思，似乎TA越多越密集，迁移效果越好：

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。