语言模型-BERT:bert算法介绍

本文深入解析BERT语言模型,包括其预训练过程中的Masked LM和Next Sentence Prediction任务,以及模型架构和微调策略。BERT在NLP任务中展现卓越性能,但也存在训练耗时和复现性问题。
摘要由CSDN通过智能技术生成

本文的目的是向NLP爱好者们详细解析一个著名的语言模型-BERT。 全文将分4个部分由浅入深的依次讲解。

1.Bert简介

BERT是2018年10月由Google AI研究院提出的一种预训练模型。

BERT的全称是Bidirectional Encoder Representation from Transformers。BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩: 全部两个衡量指标上全面超越人类,并且在11种不同NLP测试中创出SOTA表现,包括将GLUE基准推高至80.4% (绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进5.6%),成为NLP发展史上的里程碑式的模型成就。

2.关于Bert的模型架构

总体架构:如下图所示, 最左边的就是BERT的架构图,可以很清楚的看到BERT采用了Transformer Encoder block进行连接, 因为是一个典型的双向编码模型。
BERT01
BERT02

3.1 关于Bert训练过程中的关键点

1)四大关键词: Pre-trained, Deep, Bidirectional Transformer, Language Understanding

a. Pre-trained: 首先明确这是个预训练的语言模型,未来所有的开发者可以直接继承!

整个Bert模型最大的两个亮点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值