FastBERT- a Self-distilling BERT with Adaptive Inference Time
Motivation:保证效果的同时提升Bert的效率。样本有不同的难易程度,大模型一般在简单样本上出现过度计算的情况。
self-distillation:不需要额外的预训练结构,teacher和student的输出基于同一个模型(backbone)
其中,speed是uncertainty的threshold。
在self-distilillation能在显著减少计算的情况下不降低accuracy。
与之前一篇论文Depth adaptive Transformer 动机类似:
问题:不同句子的难易程度不同,