https://zhuanlan.zhihu.com/p/87562926
ALBERT,该模型提出了两种减少内存的方法,同时提升了训练速度,其次改进了BERT中的NSP的预训练任务。提出用Sentence-order prediction(SOP)任务代替BERT中的Next-sentence prediction(NSP)任务,
在ALBERT中主要有三个改进方向。
1、对Embedding因式分解(Factorized embedding parameterization)
2、跨层的参数共享(Cross-layer parameter sharing
本文提出的另一个减少参数量的方法就是层之间的参数共享,即多个层使用相同的参数。参数共享有三种方式:只共享feed-forward network的参数、只共享attention的参数、共享全部参数。ALBERT默认是共享全部参数的
全连接层与attention层都进行参数共享,也就是说共享encoder内的所有参数,同样量级下的Transformer采用该方案后实际上效果是有下降的,但是参数量减少了很多,训练速度也提升了很多。
- 这主要是为了减少参数量(性能轻微降低,参数