albert

最新推荐文章于 2024-03-08 14:42:44 发布

guohahaya

最新推荐文章于 2024-03-08 14:42:44 发布

阅读量336

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_37008037/article/details/106327331

版权

ALBERT是BERT的轻量级变体，通过因子化嵌入参数化、跨层参数共享和句间连贯性损失等方法减少参数量，提高训练速度。它使用Sentence-order prediction (SOP)任务替换Next-sentence prediction (NSP)，并移除了dropout，发现这样做反而提高了模型性能。尽管参数减少导致一些性能下降，但SOP的引入和训练策略的优化抵消了这一影响。

摘要由CSDN通过智能技术生成

https://zhuanlan.zhihu.com/p/87562926

ALBERT，该模型提出了两种减少内存的方法，同时提升了训练速度，其次改进了BERT中的NSP的预训练任务。提出用Sentence-order prediction（SOP）任务代替BERT中的Next-sentence prediction（NSP）任务，

在ALBERT中主要有三个改进方向。

1、对Embedding因式分解（Factorized embedding parameterization）

2、跨层的参数共享（Cross-layer parameter sharing

本文提出的另一个减少参数量的方法就是层之间的参数共享，即多个层使用相同的参数。参数共享有三种方式：只共享feed-forward network的参数、只共享attention的参数、共享全部参数。ALBERT默认是共享全部参数的

全连接层与attention层都进行参数共享，也就是说共享encoder内的所有参数，同样量级下的Transformer采用该方案后实际上效果是有下降的，但是参数量减少了很多，训练速度也提升了很多。

这主要是为了减少参数量（性能轻微降低，参数

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。