《BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding》之 Bert详解

一、前言

Bert是对GPT一代的改进,将其中的单向Transfromers变成了双向的,拓宽了NLP领域的各种任务,为后来LLMs的发展起到了极强的作用,是深度学习领域的一项重要的创新性模型。

二、模型架构

主要分为Bert预训练和Fine-Tuning两个部分。

三、词的表示

本研究中,Bert将三种表示简单加和,使用到尽可能多的文本信息。

四、预训练

创新之处在于用到的是二向Transformer,在两项无监督任务上做了预训练。

又使用了这种Masked 模型去防止信息的串通,随机掩盖了一部分信息,以防止二向时的不同的数据相互串通。

然后在一个文本预测任务上做了预训练。

五、微调

简而言之,BERT的微调能够在两个句子之间进行很好地信息Attention,可以理解为将有用的信息聚合,比单向的优势在于此。

因此,Bert能够更好地进行一系列NLP任务,拓宽了大语言模型的性能和应用范围。

六、结语
关注无神,一起学机器学习!

有问题欢迎评论区留言交流。

码字不易,期待您的一键三连。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值