ALBERT：轻量级BERT语言模型 ICLR2020

最新推荐文章于 2024-08-09 08:32:17 发布

BUAA～冬之恋

最新推荐文章于 2024-08-09 08:32:17 发布

阅读量3.4k

点赞数

分类专栏：论文阅读笔记

本文链接：https://blog.csdn.net/u013602059/article/details/107299453

版权

ALBERT是Google提出的轻量级BERT，参数更少但效果优于BERT-large。通过因子化嵌入参数化、跨层参数共享及句子顺序预测（SOP）优化，解决大模型的训练难题。在GLUE、RACE和SQuAD等任务上取得SOTA，同时降低了GPU/TPU内存需求和训练时间。

摘要由CSDN通过智能技术生成

在这里插入图片描述
论文链接：https://arxiv.org/pdf/1909.11942.pdf
代码链接：https://github.com/google-research/ALBERT

导读

今天阅读的是 Google 同学 2020 年的ICLR论文《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》。

我们知道模型效果会随着模型深度的增加得到提升，然而模型深度的增加也会使得训练变得更困难，为了解决这个问题，Google 的同学提出了一个轻量级的 BERT：ALBERT，参数比 BERT-large 更少，且效果更好。

摘要

预训练自然语言表征时，增加模型大小一般是可以提升模型在下游任务中的性能。但是这种纯粹依赖模型尺寸进而期望大力出奇迹的想法在未来会越发困难。进一步增加模型大小将带来以下困难：

(1)GPU/TPU内存不足
(2)训练时间会更长
(3)模型退化。

所以，为了解决上述这些问题，本文提出通过两种参数精简技术来降低内存消耗，并加快BERT的训练速度。此外，本文还引入一个自监督损失(self-supervised loss)，用于对句子连贯性(inter-sentence coherence)建模，并证明该损失函数能够提升多句子作为输入的下游任务的性能。本文所提出的模型ALBERT在 GLUE、RACE 和 SQuAD 这3个基准上都取得了新的SOTA结果，且参数量还少于 BERT-large。