12层的bert参数量_Bert: 双向预训练+微调

本文详细介绍了Bert模型的背景、结构、输入输出、Masked Language Model、Next Sentence Prediction、微调过程及实验结果,探讨了模型大小的影响和未来思考。Bert基于Transformer的Encoder部分,通过双向预训练提升模型在句子级别任务的性能,如在GLUE和SQuAD Task上取得优秀结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

99a524fbb8611b8980cd41634a01d096.png

最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。

以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。

  • Transformer:Attention集大成者
  • GPT-1 & 2: 预训练+微调带来的奇迹
  • Bert: 双向预训练+微调
  • Bert与模型压缩
    • Bert与模型蒸馏:PKD和DistillBert
    • ALBert: 轻量级Bert
    • TinyBert: 模型蒸馏的全方位应用
    • MobileBert: Pixel4上只需40ms
    • 更多待续
  • Transformer + AutoML: 进化的Transformer
  • Bert变种
    • Roberta: Bert调优
    • Electra: 判别还是生成,这是一个选择
    • Bart: Seq2Seq预训练模型
    • Transformer优化之自适应宽度注意力
    • Transformer优化之稀疏注意力
    • Reformer: 局部敏感哈希和可逆残差带来的高效
    • L
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值