<论文>如何构建一个轻量级Bert?

一、摘要

        本次分享的论文是《ALBERT: A Lite BERT for Self-supervised Learning of Language Representations》,以及该论文提出的模型——Albert。在大家都思考如何扩大模型规模的时候,Albert则是反其道而行之,思考如何在不牺牲太多性能的前提下缩小模型的规模。

译文:

        在预训练自然语言表示时,增加模型规模通常会提升下游任务的性能。然而,在某个节点之后,由于GPU/TPU内存限制和更长的训练时间,进一步增加模型规模变得更加困难。为了解决这些问题,我们提出了两种参数减少技术,以降低内存消耗并提高BERT的训练速度。综合实验证据表明,我们提出的方法使得模型在扩展性方面比原始BERT表现更好。我们还使用了一种自监督损失,专注于建模句间连贯性,并证明它在处理多句输入的下游任务时始终有帮助。结果,我们的最佳模型在GLUE、RACE和SQuAD基准测试上建立了新的最先进结果,同时参数数量比BERT-large更少。

二、模型核心创新点

1、分解embedding的参数

        在 Be

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值