基础-模型蒸馏
文章平均质量分 92
nopSled
一周一更
展开
-
Self-Distillation from the Last Mini-Batch for Consistency Regularization翻译
摘要知识蒸馏(KD)作为强大的正则化策略,其通过利用学习好的样例级软目标来提高泛化能力,显示出了明显的改进。然而,在现有KD中要么是采用复杂预训练的teacher网络,要么是采用多个student进行ensemble的结果,这既耗费大量时间,又导致计算成本较大。目前,已经提出了各种self KD方法来实现更高的蒸馏效率。但是,它们要么需要额外的网络结构修改,要么很难并行化。为了应对这些挑战,我们提出了一个有效且可靠的self-distillation框架,称为Self-Distillation from翻译 2022-05-17 15:07:47 · 1268 阅读 · 0 评论 -
ENSEMBLE DISTILLATION APPROACHES FOR GRAMMATICAL ERROR CORRECTION翻译
摘要翻译 2022-03-29 13:59:16 · 337 阅读 · 0 评论 -
Meta-KD: A Meta Knowledge Distillation Framework for Language Model Compression across Domains翻译
摘要预训练的语言模型已应用于各种NLP任务,并带来了相当大的性能增益。然而,大模型尺寸相应的带来了较长的推理时间,这限制了在实时应用中部署这些模型。典型的方法使用知识蒸馏来将大型teacher模型蒸馏到小型student模型。然而,这些研究中的大多数都专注于单领域,这忽略了来自其他领域的可迁移知识。我们认为,训练具有可迁移跨领域知识的teacher可以帮助知识蒸馏实现更好的泛化能力。为此,受Meta-Learning启发,我们提出了一个元知识蒸馏(Meta-KD)框架,以建立一个meta-teacher模翻译 2021-08-20 14:07:23 · 1014 阅读 · 0 评论 -
TinyBERT: Distilling BERT for Natural Language Understanding翻译
摘要语言模型预训练(例如BERT)已大大改善了许多自然语言处理任务的性能。但是,预训练的语言模型通常在计算上昂贵,因此很难在资源受限的设备上有效执行它们。为了加快推理速度并减小模型大小且同时保持精度,我们首先提出了一种新的Transformer蒸馏方法,该方法专门为基于Transformer模型的知识蒸馏(KD)设计。通过利用这种新的KD方法,可以将大型“teacher” BERT中编码的大量知识有效地转移给小型“student” TinyBERT。然后,我们为TinyBERT引入了一个新的两阶段学习框架翻译 2021-02-04 14:22:08 · 306 阅读 · 0 评论 -
BERT-of-Theseus: Compressing BERT by Progressive Module Replacing翻译
摘要在本文中,我们提出了一种新的模型压缩方法,可以通过逐步替换模块来有效地压缩BERT。我们的方法首先将原始BERT分为几个模块,并构建它们的压缩替代模块。然后,我们用替代模块随机替换原始模块,以训练压缩模块以模仿原始模块的行为。我们通过训练逐步增加更换的可能性。通过这种方式,我们的方法在原始模型和压缩模型之间带来了更深层次的交互。与以前的用于BERT压缩的知识蒸馏方法相比,我们的方法没有引入任何其他损失函数。我们的方法优于GLUE基准上现有的知识蒸馏方法,显示了模型压缩的新观点。1.介绍 随着深翻译 2021-02-03 13:14:29 · 294 阅读 · 0 评论