BERT语言模型

最新推荐文章于 2024-08-10 16:57:06 发布

zoe_cf

最新推荐文章于 2024-08-10 16:57:06 发布

阅读量3.5k

点赞数 3

分类专栏：算法 Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fan3652/article/details/96432336

版权

本文深入探讨了Transformer架构，包括Encoder的多头自注意力机制和Decoder的解码注意力层，以及Positional Encoding的重要性。接着，介绍了BERT模型，利用Transformer的Encoder进行双向语言建模，通过Masked LM和Next Sentence Prediction任务进行预训练。BERT在微调后适用于多种NLP任务，如分类、问答和实体识别。

摘要由CSDN通过智能技术生成

1 Transformer原理

文章：《Attention Is All You Need》

模型架构图如下：

transformer的结构由encoder编码和decoder解码组成。

1.1 Encoder

Encoder组件部分由一堆Layer(可以理解为编码器)构成（论文中是将6个Layer叠在一起）。Decoder解码组件部分也是由相同数量（与编码器对应）的解码器（decoder）组成的。每个Layer由两个sub-layer组成，分别是multi-head self-attention mechanism和fully connected feed-forward network，sub-layer的结构相同，但是没有共享参数。

使用self-attrntion，考虑到以下三个需求：

the total computational complexity per layer 每层计算复杂度
the amount of computation that can be parallelized, as measured by the minimum number of sequential operations required.
the path length between long-range dependencies in the network

1.2 Decoder

Decoder组件部分与Encoder很想，但是它多了一个attention的sub-layer（解码注意力层），用来关注输入句子的相关部分（和seq2seq模型的注意力作用相似）。

Transformer的一个核心特性，在这里输入序列中每个位置的单词都有自己独特的路径流入编码器。在自注意力层中，这些路径之间存在依赖关系。而前馈（feed-forward）层没有这些依赖关系。因此在前馈（feed-forward）层时可以并行执行各种路

最低0.47元/天解锁文章

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。