Bert模型_3分钟热情学NLP第11篇

最新推荐文章于 2023-09-03 00:13:41 发布

13线

最新推荐文章于 2023-09-03 00:13:41 发布

阅读量287

点赞数

分类专栏： NLP 3分钟热情学NLP Python 文章标签：人工智能自然语言处理 bert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/licx1988/article/details/114138810

版权

Python 同时被 3 个专栏收录

13 篇文章 0 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

3分钟热情学NLP

11 篇文章 0 订阅

订阅专栏

3分钟热情学NLP第11篇，Bert模型

BERT ：Bidirectional Encoder Representations from Transformers)

2018年的10月11日，Google AI的Jacob Devlin和他的合作者在arxiv上放上了他们的文章，名为《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》
论文地址：https://arxiv.org/abs/1810.04805

1、Bert的2个阶段

Bert采用和GPT相同的2个阶段，
1、进行语言模型预训练；
2、是使用Fine-Tuning模式解决下游任务；

Fine-Tuning，Fine-tuning方式是指在已经训练好的语言模型的基础上，加入少量的task-specific parameters，进行微调。

2、Bert模型之Transformer

Transformer是个叠加的“自注意力机制（Self Attention）”构成的深度网络，是谷歌在2017年的论文“Attention is all you need”提出的。

调侃下，现在 XXX is all you need 已经成为了1个标题党

3、word2vec，ELMo，GPT和Bert的关系

摘自：https://zhuanlan.zhihu.com/p/49271699

4个模型的关系

Bert其实和ELMO及GPT存在千丝万缕的关系，比如如果我们把GPT预训练阶段换成双向语言模型，那么就得到了Bert；而如果我们把ELMO的特征抽取器换成Transformer，那么我们也会得到Bert。所以你可以看出：Bert最关键两点，一点是特征抽取器采用Transformer；第二点是预训练的时候采用双向语言模型。

长短期记忆网络（LSTM，Long Short-Term Memory）

参考：《会话式AI：自然语言处理与人机交互》 — 杜振东涂铭

1、静态和动态

word2vec、FastText、glove是基于词向量的固定表征
ELMo、GPT、Bert是基于词向量的动态表征（动态表征可解决一词多义的问题）。

2、LSTM和Transformer

ELMo采用LSTM网络提取特征
GPT和Bert则采用Transformer提取

3、单向和双向

GPT是单向语言模型
ELMo和Bert是双向语言模型
单向语言模型只能看到上文，而双向语言模型可以看到上下文，这样可以解决一词多义的情况。在双向语言模型中，ELMo实际上是两个单向语言模型（方向相反）的拼接，而Bert使用Mask掩码实现了真正的双向语言模型。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

13线 谢谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。