ALBert论文阅读笔记-缩减版的bert，模型参数更少，性能更好

最新推荐文章于 2024-07-22 09:29:50 发布

bigbao_num

最新推荐文章于 2024-07-22 09:29:50 发布

阅读量1.7k

点赞数

分类专栏：自然语言(nlp)论文阅读笔记文章标签：自然语言处理深度学习论文 nlp

本文链接：https://blog.csdn.net/u014400239/article/details/102709166

版权

ALBERT是Google在2019年提出的一种轻量级BERT变体，旨在减少模型参数量，提高训练和推断效率。论文通过词向量分解和层间参数共享等方法降低模型复杂度，并引入SOP预训练任务增强句子连贯性学习。实验表明，ALBERT在保持甚至超越BERT性能的同时，参数量显著减少。

摘要由CSDN通过智能技术生成

引言

自从Bert被提出来后，后续的研究者大多基于bert进行改造，提升预训练语言模型性能，从而提高下游任务的性能。比如ERINE、BERT_WWM、MASS、MT-DNN、RoBERT等等。从GLUE榜上我们可以看到，似乎现在的语言模型有越来越大的趋势，虽然我们的训练资源也是从GPU单卡到GPU多卡，到现在TPU，但不是每个公司都这么有钱，特别对个人，有可能就是一块卡，怎么样在资源有限的情况下，玩起来这些高大上的模型了？我们知道bert的base版本12层，参数量接近110M，这样大的模型在线上部署的时候效果是怎么样的？下表是在linux环境下基于GTX 1080运行结果。