BERT蒸馏
文章平均质量分 80
亦万
世间行乐亦如此,古来万事东流水。
展开
-
bert知识蒸馏动态温度设置Annealing Knowledge Distillation (EACL 2021)& Reducing the Teacher-Student Gap
从14年hiton的蒸馏鼻祖paper开始,温度T在输出层蒸馏时已经成了不可或缺的一环,实际使用中发现使用恒定的温度反而导致模型效果的下降,下面介绍两篇最新对温度T的研究Annealing Knowledge Distillation (EACL 2021)论文方法将蒸馏划分为两阶段,第一阶段只蒸馏teacher的logits,第二阶段只蒸馏标注数据的CE LOSS(说是不需要调节hard label和soft label loss的比例) 在第一阶段蒸馏teacher的soft loss原创 2022-02-17 20:00:48 · 1665 阅读 · 3 评论 -
MiniLM V2 深度自注意力蒸馏: Multi-Head Self-Attention Relation Distillation for Compressing Pretrain
建议先阅读MiniLM V1:蒸馏预训练模型架构:深度自注意力蒸馏(NeurIPS 2020) MINILM - 知乎论文个人理解目的与V1一样,本篇paper也是在预训练阶段蒸馏模型(跟任务无关的蒸馏架构),下游任务直接load蒸馏预训练好的student模型,使用任务相关数据finetuning。方法深度自注意力蒸馏: 蒸馏query-query矩阵、key-key矩阵和value-value矩阵(V1采用的是attention矩阵和V-V矩阵) 如果teacher模型过大,可以从原创 2022-02-13 11:33:24 · 2623 阅读 · 0 评论 -
蒸馏预训练模型架构:深度自注意力蒸馏(NeurIPS 2020) MINILM
论文个人理解目的:这篇paper介绍了蒸馏预训练模型的通用架构(预训练蒸馏), 与所有模型蒸馏方法一样,解决的也是student模型和teacher模型的GAP,怎么使用参数量小、推理时间短的student模型尽可能获取teacher模型的能力方法深度自注意力蒸馏: 蒸馏self-attention矩阵和value-value矩阵 助手机制:当teacher和student模型参数差异很大时,先使用teacher蒸馏assistant,再使用assistant蒸馏到student结论原创 2022-01-26 11:05:48 · 1348 阅读 · 0 评论