TinyBERT简介
文章目录题目两段式蒸馏知识蒸馏方法题目TinyBERT简介两段式蒸馏预训练阶段蒸馏General Distillation下游任务精调阶段蒸馏Task-specific Distillation数据增广Data Augmentation知识蒸馏方法词向量层蒸馏Embedding-layer DistillationLembed=MSE(ESWe,ET)(1)\mathcal{L}_{embed}= MSE(E^SW_e, E^T )\tag1Lembed=MSE(ESWe
复制链接