motivation: 希望a teacher can effectively transfer its knowl-
edge to students up to a certain size,
但有时gap太大,效果反而差,
正如mutual learning发现跟teacher学还不如和一个与自己目前水平相当(虽然网络结构差很多)的student学
所以助教的概念都出来了:
teacher student 差距太大,学习效果反而不好:
这个实验很有趣:
看完第三个因素后,我觉得是不是gap太大时,把T调大一点就好了啊……
不过可能也不对,毕竟这个teacher才10层,prediction也没有那么hard吧,有些论文里面teacher student都是resnet这种,也没听说T要调特别大
teacher和student之间引入一个TA是有效的,然而又有了这些问题:
作者说用accuracy平均,然后得到对应TA的层数
我觉得这种可操作性太差,平均accuracy对应多少层还不是得训练了才知道,直接(10+2)/2不好,求几何平均数我觉得更科学点
10
×
2
=
4.5
\sqrt{10\times2}=4.5
10×2=4.5
这个图也很有意思,似乎TA越多越密集,迁移效果越好: