整理自网络,主要方便自己查询和记忆
(a)BERT,(b)MobileBER Tteacher模型和(c)MobileBERT student模型中的Transformer架构可视化。标有“linear”的绿色梯形称为bottlenecks。
知识迁移技术
(a)辅助知识迁移,(b)联合知识迁移,(c)渐进知识迁移。
通过逐步的知识迁移过程来训练MobileBERT的这些变体是最有效
MobileBERT 在转换模块中引入了bottleneck,这使我们可以更轻松地将知识从大teacher模型传授给小student模型。这种技术使我们可以减小student模型的宽度而不是深度,这可以产生更强大的模型。该模型强调了这样一个事实,即可以创建一个student模型,该模型本身可以在初始蒸馏过程之后进行微调。