BERT原理介绍

最新推荐文章于 2024-07-27 22:44:12 发布

林ch

最新推荐文章于 2024-07-27 22:44:12 发布

阅读量2.8k

点赞数 1

分类专栏：语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/linchuhai/article/details/97376756

版权

1. 引言

2018年，谷歌提出了一个新的模型BERT(Bidirectional Encoder Representations from Transformers)，刷榜了11项NLP任务，可以说是NLP的一个新的里程碑。它的思想其实跟我们前面介绍的GPT模型非常相似，只是GPT只考虑单向语言模型，即GPT采用的是Transformer中decoder的结构，而BERT考虑的是深层双向语言模型，采用的是Transformer的encoder结构，因为在一些下游NLP任务中，比如问答，往往需要从前后文来进行分析，因此，采用GPT这种单向结构对下游NLP任务进行迁移学习，可能受限于模型的结构。

论文地址：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

2. BERT原理介绍

BERT的思想跟GPT基本保持一致，同样包括两阶段的训练，第一阶段是预训练，即在大型未标注的语料上进行预训练，第二阶段是fine-tuning，即将预训练的模型迁移到具体的NLP任务，进行模型微调。

2.1 模型的结构

BERT采用的是Transformer中encoder的结构，记Transformer的层数为 $L$ ，维度为 $H$ ，self attention的头数为 $A$ 。BERT在实验中主要考虑了两种规格的模型：

$BERT_{BASE}$ ： $\mathrm{L}=12, \mathrm{H}=768, \mathrm{A}=12$ ，参数量为110M
$BERT_{LARGE}$

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
BERT原理介绍

1. 引言2018年，谷歌提出了一个新的模型BERT(Bidirectional Encoder Representations from Transformers)，刷榜了11项NLP任务，可以说是NLP的一个新的里程碑。它的思想其实跟我们前面介绍的GPT模型非常相似，只是GPT只考虑单向语言模型，即GPT采用的是Transformer中decoder的结构，而BERT考虑的是深层双向语言模型...
复制链接

扫一扫

专栏目录

林ch CSDN认证博客专家 CSDN认证企业博客

码龄8年

50: 原创

9万+: 周排名

160万+: 总排名

32万+: 访问

: 等级

3141: 积分

256: 粉丝

259: 获赞

235: 评论

1435: 收藏

私信

关注

热门文章

分类专栏

最新评论

CRNN文本识别与tensorflow实现
luo591244113: 我问下requirements.txt文件有没有呀，看不到需要的环境
GPT原理介绍
xinggcs: 大佬我想问一下 l1是什么是正则的l1还是序列预测标号的l1 那l1我似乎好像没看到在哪里
CTPN文本检测与tensorflow实现
无言独敲代码: 这篇CTPN模型介绍参考的是哪篇文献啊
CRNN文本识别与tensorflow实现
weixin_44603943: 大佬，请教一下，我运行了predict.py后，显示"Process finished with exit code 0"，但是并没有在.\data目录下看到predict_label.txt；如何查看预测结果呀
DBSCAN文本聚类与python实现
weixin_45205244: 你好请问有源码吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。