Abstract & Introduction & Related Work
- 研究任务
- 预训练语言模型
- 已有方法和相关工作
- 面临挑战
- 越来越大的模型需要更多的计算资源和时间去训练
- 创新思路
- 因子化嵌入参数化
- 跨层参数共享
- 用SOP替换NSP
- 实验结论
- sota
ALBERT用了两个很重要的技术来减少参数规模
- 因子化嵌入参数化。通过将大的词汇嵌入矩阵分解成两个小矩阵,我们将隐藏层的大小与词汇嵌入的大小分开。这种分离使得在不大幅增加词汇嵌入的参数大小的情况下,更容易增长隐藏的大小。
- 跨层参数共享。这种技术可以防止参数随着网络的深度而增长。这两种技术都大大减少了BERT的参数数量而不严重损害性能,从而提高了参数效率。类似于BERT-large的ALBERT配置的参数数量减少了18倍,训练速度可以提高约1.7倍。减少参数的技术也作为一种正则化的形式,稳定了训练
- 为了进一步提高ALBERT的性能,我们还引入了一个用于句序预测的自监督损失(SOP)。SOP主要关注的是句间连贯性,旨在解决原始BERT中提出的下句预测(NSP)损失的无效性(Yang等人,2019;Liu等人,2019)
THE ELEMENTS OF ALBERT
MODEL ARCHITECTURE CHOICES
Factorized embedding parameterization
BERT,RoBERTa,XLNet用的都是wordpiece embedding,E的大小与隐藏层的大小H相联系
出于建模和实际的原因,这一决定似乎是次优的,具体如下
从建模的视角,wordpiece embedding意思是去学习上下文独立的表示,但是隐藏层的embedding是学习上下文依赖的表示
正如关于语境长度的实验所表明的那样(Liu等人,2019),类似BERT的表征的力量来自于使用语境来提供学习这种依赖语境的表征的信号。因此,将WordPiece嵌入大小E与隐藏层大小H分开,可以使我们更有效地使用总的模型参数,这是由建模需求决定的,H>>E
从实践的角度,NLP往往需要一个大的vocab size V,如果E=H,在嵌入矩阵中,V * E的矩阵大小很容易导致数十亿的参数量,大部分在训练阶段的更新都很稀疏
因此把embedding矩阵从 O ( V × E ) O(V \times E) O(V×E) 分解成 O ( V × E + E × H ) O(V \times E + E \times H) O(V×E+E×H),E<<H。
我们选择对所有的wordpiece使用相同的E,因为与whole-word embedding相比,它们在文档中的分布更加均匀,在whole-word embedding中,不同的词有不同的嵌入大小(Grave等人(2017);Baevski & Auli(2018);Dai等人(2019))是重要的
Cross-layer parameter sharing
ALBERT的默认跨层共享所有参数
图1显示了使用BERT-large和ALBERT-large配置的每一层的输入和输出嵌入的L2距离和余弦相似度(见表1)。我们观察到,ALBERT的层与层之间的过渡要比BERT的平滑得多。这些结果表明,权重共享对稳定网络参数有一定的影响。尽管与BERT相比,两个指标都有下降,但即使在24层之后,它们也没有收敛到0。这表明,ALBERT参数的解空间与DQE发现的空间有很大不同
Inter-sentence coherence loss
我们推测NSP任务作用不大是因为它过于简单,因为负样例是从不同的文档采样过来的
我们坚持认为,句间建模是语言理解的一个重要方面,但我们提出了一个主要基于连贯性的损失。也就是说,对于ALBERT,我们使用了一个句序预测(SOP)损失,它避免了主题预测,而是专注于句子间的连贯性建模。SOP损失使用与BERT相同的技术(来自同一文件的两个连续片段)作为正样例,并使用相同的两个连续片段作为负样例,但其顺序被调换。这迫使模型学习关于话语层面一致性属性的更精细的区分。正如我们在第4.6节中所显示的,事实证明NSP根本不能解决SOP的任务(也就是说,它最终学习了更容易的话题预测信号,并在SOP任务中表现为随机水平),而SOP可以在合理的程度上解决NSP的任务,大概是基于分析错位的一致性线索。因此,ALBERT模型持续改善了多句子编码任务的下游任务表现
MODEL SETUP
一些超参数的设定
EXPERIMENTAL RESULTS
DISCUSSION
虽然ALBERT-xxlarge的参数比BERT-large少,得到的结果也明显更好,但由于其结构更大,计算成本更高。因此,下一步的重要工作是通过稀疏注意(Child等人,2019)和块状注意(Shen等人,2018)等方法,加快ALBERT的训练和推理速度。一个正交的研究路线,可以提供额外的表示能力,包括硬例挖掘(Mikolov等人,2013)和更有效的语言建模训练(杨等人,2019)。此外,尽管我们有令人信服的证据表明,句子顺序预测是一项更加持续有用的学习任务,可以带来更好的语言表征,但我们假设,可能有更多的维度尚未被目前的自我监督训练损失所捕获,可以为所产生的表征创造额外的表征能力
Remark
减少参数量,而且work,是好文明!