[论文笔记] 亚马逊4层Bert模型Bort: Optimal Subarchitecture Extraction For BERT

心心喵

已于 2023-12-14 16:16:52 修改

阅读量42

点赞数

分类专栏：论文笔记文章标签：人工智能深度学习计算机视觉

于 2023-05-10 17:45:57 首次发布

本文链接：https://blog.csdn.net/Trance95/article/details/130605918

版权

论文笔记专栏收录该内容

103 篇文章 5 订阅 ¥299.90 ¥399.90

订阅专栏

超级会员免费看

本文介绍了亚马逊的Bort模型，这是一个仅4层的小模型，在效果上超过了BERT-large。通过使用十倍于原始BERT的训练语料，Bort在最优子结构选择后，进行了预训练和蒸馏过程。研究发现，小模型蒸馏Roberta-large比MLM更快，且仅蒸馏最后一层效果更优。在精调阶段，结合Agora算法，实现了在有限数据下的高效学习。

摘要由CSDN通过智能技术生成

论文题目：Optimal Subarchitecture Extraction For BERT
论文地址：https://arxiv.org/abs/2010.10499
源码地址：https://github.com/alexa/bort

Bort: 亚马逊最新4层小模型，效果超越BERT-large - 知乎

训练语料

作者预训练Bort的预料是原始BERT的十倍。同时BERT-of-Theseus、TinyBERT也是在分别基于原始BERT或者用Wiki语料训练的。

最优子结构的选取

输入：模型结构，数据，参数，子结构搜索空间（层数/注意力头数/隐藏维度/Intermediate层维度），模型超参，最大训练步数s，loss，最优模型
输出：最优结果，包括参数、层数/注意力头数/隐藏维度/Intermediate层维度
流程：
1. 计算最优模型的参数量、推理时间
2. 根据最优模型的参数量对搜索空间中的候选排序
3. 对于每一组超参数：
4.  对于每一组子结构：
5.  将子结构训练s步
6.   根据子结构的参数量、推理时间，计算分数W（参数量越小、推理时间越小、和最优模型T最后一层的交叉熵越小则分数越高）
7. 选取分数W最高的作为最优子结构

预训练

得到了最优子结构后，作者用小模型对Roberta-large进行蒸馏，并得到了两个结论：

了解本专栏

超级会员免费看

心心喵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
[论文笔记] 亚马逊4层Bert模型Bort: Optimal Subarchitecture Extraction For BERT

在精调过程中，作者有引用了自己今年另一篇论文的算法Agora。该算法混合了数据增强和蒸馏，当二分类的数据很少或者存在数据不一致时，可以让student在大部分情况下逼近teacher模型的表现。作者预训练Bort的预料是原始BERT的十倍。同时BERT-of-Theseus、TinyBERT也是在分别基于原始BERT或者用Wiki语料训练的。在蒸馏预训练的设定下，小模型的训练效率更高，只是原始Roberta-large预训练时间（GPU hours）的1.2%
复制链接

扫一扫