解析BERT

161 篇文章 8 订阅 ¥19.90 ¥99.00
161 篇文章 4 订阅

什么是BERT?

BERT是Transformer的双向编码器表示的缩写。它是由Google在2018年末开发和发布的一种新型语言模型。像BERT这样的预训练语言模型在许多自然语言处理任务中发挥着重要作用,例如问答,命名实体识别,自然语言推理,文本分类等等
BERT是一种基于微调的多层双向变压器编码器。此时,介绍Transformer架构非常重要。

什么是变压器?

2017年,谷歌发表了一篇题为“注意力都是你需要的”的论文,该论文提出了一种基于注意力的结构来处理与序列模型相关的问题,例如机器翻译。传统的神经机器翻译大多使用RNN或CNN作为编码器 - 解码器的模型库。然而,谷歌的基于注意力的变形金刚模型放弃了传统的RNN和CNN公式。该模型高度并行运行,因此在提高翻译性能的同时,培训速度也非常快。
让我们退后一步,理解注意力。

什么是注意力?

注意机制可以看作是模糊记忆的一种形式。内存由模型的隐藏状态组成,模型选择从内存中检索内容。在我们深入了解Attention之前,让我们简要回顾一下Seq2Seq模型。传统的机器翻译基本上是基于Seq2Seq模型。该模型分为编码器层和解码器层,并由RNN或RNN变体(LSTM,GRU等)组成。编码器矢量是从模型的编码器部分产生的最终隐藏状态。该向量旨在封装所有输入元素的信息,以帮助解码器进行准确的预测。它充当模型的解码器部分的初始隐藏状态。Seq2Seq模型的主要瓶颈是需要将源序列的全部内容压缩为固定大小的矢量。如果文本稍长,则很容易丢失文本的某些信息。为了解决这个问题,注意力应运而生。注意机制通过允许解码器回顾源序列隐藏状态,然后将其加权平均值作为附加输入提供给解码器

  • 4
    点赞
  • 39
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Adam婷

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值