一、摘要
本次分享的论文是《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》,以及该论文提出的模型——Albert。在大家都思考如何扩大模型规模的时候,Albert则是反其道而行之,思考如何在不牺牲太多性能的前提下缩小模型的规模。
译文:
在预训练自然语言表示时,增加模型规模通常会提升下游任务的性能。然而,在某个节点之后,由于GPU/TPU内存限制和更长的训练时间,进一步增加模型规模变得更加困难。为了解决这些问题,我们提出了两种参数减少技术,以降低内存消耗并提高BERT的训练速度。综合实验证据表明,我们提出的方法使得模型在扩展性方面比原始BERT表现更好。我们还使用了一种自监督损失,专注于建模句间连贯性,并证明它在处理多句输入的下游任务时始终有帮助。结果,我们的最佳模型在GLUE、RACE和SQuAD基准测试上建立了新的最先进结果,同时参数数量比BERT-large更少。
二、模型核心创新点
1、分解embedding的参数
在 Be