最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。
以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。
- Transformer:Attention集大成者
- GPT-1 & 2: 预训练+微调带来的奇迹
- Bert: 双向预训练+微调
- Bert与模型压缩
- Bert与模型蒸馏:PKD和DistillBert
- ALBert: 轻量级Bert
- TinyBert: 模型蒸馏的全方位应用
- MobileBert: Pixel4上只需40ms
- 更多待续
- Transformer + AutoML: 进化的Transformer
- Bert变种
- Roberta: Bert调优
- Electra: 判别还是生成,这是一个选择
- Bart: Seq2Seq预训练模型
- Transformer优化之自适应宽度注意力
- Transformer优化之稀疏注意力
- Reformer: 局部敏感哈希和可逆残差带来的高效
- L

本文详细介绍了Bert模型的背景、结构、输入输出、Masked Language Model、Next Sentence Prediction、微调过程及实验结果,探讨了模型大小的影响和未来思考。Bert基于Transformer的Encoder部分,通过双向预训练提升模型在句子级别任务的性能,如在GLUE和SQuAD Task上取得优秀结果。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



