论文链接:https://arxiv.org/pdf/1909.11942.pdf
代码链接:https://github.com/google-research/ALBERT
导读
今天阅读的是 Google 同学 2020 年的ICLR论文《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》。
我们知道模型效果会随着模型深度的增加得到提升,然而模型深度的增加也会使得训练变得更困难,为了解决这个问题,Google 的同学提出了一个轻量级的 BERT:ALBERT,参数比 BERT-large 更少,且效果更好。
摘要
预训练自然语言表征时,增加模型大小一般是可以提升模型在下游任务中的性能。但是这种纯粹依赖模型尺寸进而期望大力出奇迹的想法在未来会越发困难。进一步增加模型大小将带来以下困难:
- (1)GPU/TPU内存不足
- (2)训练时间会更长
- (3)模型退化。
所以,为了解决上述这些问题,本文提出通过两种参数精简技术来降低内存消耗,并加快BERT的训练速度。此外,本文还引入一个自监督损失(self-supervised loss),用于对句子连贯性(inter-sentence coherence)建模,并证明该损失函数能够提升多句子作为输入的下游任务的性能。本文所提出的模型ALBERT在 GLUE、RACE 和 SQuAD 这3个基准上都取得了新的SOTA结果,且参数量还少于 BERT-large。
1、引言
通常来说,模型深度与模型效果成正比,但是模型越深也会带来动则数亿甚至数十亿的参数量,这就对计算内存有了一定的要求。而在分布式训练中,通信开销与参数也成正比,所以其对训练速度也产生了显著的影响。
目前已有的解决方案要么是并行化,要么是内存管理,但是都没有解决通信开销,即降低模型本身的参数。
研究者还观察到,仅仅增加 BERT-large 等模型的隐藏层大小也会导致性能下降。如下表 1 和图 1 所示,研究者将 BERT-large 的隐藏层大小增加一倍,该模型(BERT-xlarge)在 RACE 基准测试上的准确率显著降低。
在本文,作者设计一种轻量级的 Bert,并取名为 ALBERT(A Lite BERT),ALBERT 的参数比传统的 BERT 要少得多,有效的解决了模型通信开销的问题。
ALBERT 提出了两种降低参数的技术,包括 factorized embedding parameterization 和 cross-layer parameter sharing。前者是将 Embedding 参数矩阵分解为两个小矩阵,后者是跨层的参数共享。
除了降低参数外,为了提高性能,作者还引入了一种自监督的句子预测目标(sentence-order prediction,SOP),主要用来关注句子间的连贯性,旨在解决 BERT 中 next sentence prediction(NSP)的无效性问题。
最终 ALBERT 比 BERT-large 参数更少,效果更好,并在多个 NLP 任务中刷榜。
2、ALBERT模型
ALBERT 架构的主干和 BERT 类似,都使用了基于 GELU 的非线性激活函数的 Transformer。但是其分别在两个地方减少了参数量。
以下图为例可以看到模型的参数主要集中在两块,一块是 Token embedding projection block,另一块是 Attention feed-forward block,前者占有 20% 的参数量,后者占有 80% 的参数量。
2.1、Factorized embedding parameterization
我们先来看 Token embedding projection 模块。
在 BERT 中,Token Embedding 的参数矩阵大小为 ( V × H ) (V\times H) (V×H)$ ,其中 V V V 表示词汇表长度, H H