预训练模型
文章平均质量分 93
雾里闹
这个作者很懒,什么都没留下…
展开
-
ELECTRA学习记录
和判别器共享embedding层的权重。论文中经过比较,共享权重比不共享权重性能有所提高,但是当生成器层尺寸和判别器的层尺寸相同时会导致判别器难以学习,所以最终只共享embedding的权重。整个训练结构为模仿gan的结构,由一个生成器和一个判别器组成,最后在下游任务使用时,通过对判别器进行fine-tuning得到。可见「隔离式」的训练策略效果还是最好的,而两段式的训练虽然弱一些,作者猜测是生成器太强了导致判别任务难度增大,但最终效果也比 BERT 本身要强,进一步证明了判别式预训练的效果。原创 2023-04-16 22:24:35 · 116 阅读 · 0 评论 -
知识蒸馏简单介绍
在自然语言领域中,自bert伊始,预训练模型变得越来越大。大的预训练模型在离线测评时通常有着良好的结果,但是对于线上的时效要求往往难以满足。因此,发展出了权重剪枝(Weight Pruning),量化(Quantization),知识蒸馏(Knowledge Distillation)这些技术来减少模型的大小,提高模型的运行效率。本文将从模型训练和损失函数两个角度去简单介绍下几种不同的知识蒸馏方法。知识蒸馏是指将知识从一个复杂的模型压缩进入一个更小的模型的方法。EDL。原创 2023-04-16 22:15:35 · 393 阅读 · 0 评论 -
Toolformer学习
是meta ai在23年2月发表的论文,主要提出了一种新方法,可以教导大语言模型通过调用api来使用扩展工具。这个方法首先通过自监督的方法构建了一个包含扩展工具调用的语料库,再结合扩展预料库和原始语料库通过fine-tune的方式训练语言模型。原创 2023-04-16 21:48:27 · 307 阅读 · 0 评论 -
Fast and Accurate Deep Bidirectional Language Representations for Unsupervised Learning学习记录
T-TAFast and Accurate Deep Bidirectional Language Representations for Unsupervised Learningcode这是一篇ACL2020的论文,主要内容是对bert的预训练任务MLM进行改进。传统的bert中使用的MLM任务每次只能遮蔽(mask)15%的字符,导致训练时效率不高。本文通过对transformer中的QKV进行了改造,使得训练时每次可以预测全部的token,并且不需要额外的[MASK][MASK]符号,实现了预原创 2020-09-07 21:52:46 · 406 阅读 · 0 评论