文章大纲
简介
bert 回顾
bert 两阶段 模式:预训练 + 微调
BERT 的总体预训练和微调程序。 除了输出层,在预训练和微调中都使用相同的体系结构。 相同的预训练模型参数用于初始化不同下游任务的模型。 在微调期间,所有参数都将进行微调。 [CLS]是在每个输入示例前添加的特殊符号,而[SEP]是特殊的分隔符(例如,分隔问题/答案)。
bert 的问题
1、内存限制和通信开销
2、模型退化
ALBERT (A Lite BERT)
bert 推出以来 各种大体量的预训练模型层出不穷,经常是一个出来刷榜没几天,另外一个又出现了。BERT、GPT、XLNET等等都是代表人物。这些预训练模型们虽然一个比一个效果好,但是他们的体量都是非常大的,动不动就几千万几个亿的参数量,而且训练也非常困难。
新出的ALBERT就是为了解决模型参数量大以及训练时间过长的问题。ALBERT最小的参数只有十几M,