albert

ALBERT是BERT的轻量级变体,通过因子化嵌入参数化、跨层参数共享和句间连贯性损失等方法减少参数量,提高训练速度。它使用Sentence-order prediction (SOP)任务替换Next-sentence prediction (NSP),并移除了dropout,发现这样做反而提高了模型性能。尽管参数减少导致一些性能下降,但SOP的引入和训练策略的优化抵消了这一影响。
摘要由CSDN通过智能技术生成

https://zhuanlan.zhihu.com/p/87562926

ALBERT,该模型提出了两种减少内存的方法,同时提升了训练速度,其次改进了BERT中的NSP的预训练任务。提出用Sentence-order prediction(SOP)任务代替BERT中的Next-sentence prediction(NSP)任务,

在ALBERT中主要有三个改进方向。

1、对Embedding因式分解(Factorized embedding parameterization)

2、跨层的参数共享(Cross-layer parameter sharing

本文提出的另一个减少参数量的方法就是层之间的参数共享,即多个层使用相同的参数。参数共享有三种方式:只共享feed-forward network的参数、只共享attention的参数、共享全部参数。ALBERT默认是共享全部参数的

全连接层与attention层都进行参数共享,也就是说共享encoder内的所有参数,同样量级下的Transformer采用该方案后实际上效果是有下降的,但是参数量减少了很多,训练速度也提升了很多。

  • 这主要是为了减少参数量(性能轻微降低,参数
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值