解析BERT

最新推荐文章于 2023-03-27 21:54:35 发布

Adam婷

最新推荐文章于 2023-03-27 21:54:35 发布

阅读量4.5k

点赞数 4

分类专栏： AI程序员算法机器学习深度学习自然语言处理文章标签： BERT

本文链接：https://blog.csdn.net/weixin_41697507/article/details/97388957

版权

AI程序员同时被 3 个专栏收录

166 篇文章 8 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

机器学习

161 篇文章 8 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

算法

161 篇文章 4 订阅

订阅专栏

什么是BERT？

BERT是Transformer的双向编码器表示的缩写。它是由Google在2018年末开发和发布的一种新型语言模型。像BERT这样的预训练语言模型在许多自然语言处理任务中发挥着重要作用，例如问答，命名实体识别，自然语言推理，文本分类等等
BERT是一种基于微调的多层双向变压器编码器。此时，介绍Transformer架构非常重要。

什么是变压器？

2017年，谷歌发表了一篇题为“注意力都是你需要的”的论文，该论文提出了一种基于注意力的结构来处理与序列模型相关的问题，例如机器翻译。传统的神经机器翻译大多使用RNN或CNN作为编码器 - 解码器的模型库。然而，谷歌的基于注意力的变形金刚模型放弃了传统的RNN和CNN公式。该模型高度并行运行，因此在提高翻译性能的同时，培训速度也非常快。
让我们退后一步，理解注意力。

什么是注意力？

注意机制可以看作是模糊记忆的一种形式。内存由模型的隐藏状态组成，模型选择从内存中检索内容。在我们深入了解Attention之前，让我们简要回顾一下Seq2Seq模型。传统的机器翻译基本上是基于Seq2Seq模型。该模型分为编码器层和解码器层，并由RNN或RNN变体（LSTM，GRU等）组成。编码器矢量是从模型的编码器部分产生的最终隐藏状态。该向量旨在封装所有输入元素的信息，以帮助解码器进行准确的预测。它充当模型的解码器部分的初始隐藏状态。Seq2Seq模型的主要瓶颈是需要将源序列的全部内容压缩为固定大小的矢量。如果文本稍长，则很容易丢失文本的某些信息。为了解决这个问题，注意力应运而生。注意机制通过允许解码器回顾源序列隐藏状态，然后将其加权平均值作为附加输入提供给解码器

了解本专栏

超级会员免费看

Adam婷

关注

4
点赞
踩
39

收藏

觉得还不错? 一键收藏
打赏
0
评论
解析BERT

什么是BERT？BERT是Transformer的双向编码器表示的缩写。它是由Google在2018年末开发和发布的一种新型语言模型。像BERT这样的预训练语言模型在许多自然语言处理任务中发挥着重要作用，例如问答，命名实体识别，自然语言推理，文本分类等等BERT是一种基于微调的多层双向变压器编码器。此时，介绍Transformer架构非常重要。什么是变压器？2017年，谷歌发表了一篇题为“...
复制链接

扫一扫