ALBERT是如何做到又快又好的

最新推荐文章于 2022-07-31 11:06:04 发布

loveqiong2746

最新推荐文章于 2022-07-31 11:06:04 发布

阅读量335

点赞数

分类专栏：算法

本文链接：https://blog.csdn.net/u011334375/article/details/102609866

版权

算法专栏收录该内容

26 篇文章 0 订阅

订阅专栏

                    
                        
                    
                    ALBERT: A LITE BERT FOR SELF-SUPERVISED
 LEARNING OF LANGUAGE REPRESENTATIONS
MIXED PRECISION TRAINING
https://github.com/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/LanguageModeling/BERT)
 作者做了很多文献调研，很深的功底。多读paper多coding
 增加模型的表达能力和更大的模型并不是一回事。
 模型压缩上，作者用到了两种技术，一是隐含层矩阵分解；二是跨层权值共享。精度提升上，introduce a self-supervised loss for
 sentence-order prediction