![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
模型加速
lcomecon
这个作者很懒,什么都没留下…
展开
-
albert笔记
学习的目的是跟tinybert类似,是为了模型的压缩和加速;论文:ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONSalbert与bert对比:词嵌入矩阵压缩加速;在bert中word_embeding为了适配encoder操作,使用的[vocab_size, hidden_size]作为的转化矩阵,每当隐层的大小扩大时,词嵌入模型的转化矩阵跟着扩大,且vocab_size是一个较大的数字,所以那原创 2020-12-15 15:10:49 · 160 阅读 · 0 评论 -
tinybert个人笔记
论文TinyBERT: Distilling BERT for Natural Language Understanding基于transformer模型的两段式学习框架general distillationteacher model: 原始的bert模型(没有进行fine-tuning)student model: 常规的tinybert 在常规领域的语料task-specific distillation首先做数据增强(data augmentation)teacher model:原创 2020-12-07 12:02:46 · 803 阅读 · 0 评论 -
bert模型加速
加速 BERT 模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解! - AI研习社的文章 - 知乎方法:架构改进:将原有的架构改进为更快的架构,例如,将 RNN 替换为 Transformer或CNN;使用需要较少计算的层等。当然也可以采用其他优化,例如从学习率和策略、预热步数,较大的批处理大小等;模型压缩:通常使用量化和修剪来完成,从而能够在架构不变(或者大部分架构不变)的情况下减少计算总量;模型蒸馏:训练一个较小的模型,该模型能够复制原始模型的行为。...转载 2020-12-01 11:40:14 · 515 阅读 · 1 评论