BERT简单解读

BERT的原论文为:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT是Google公司在2018年提出的基于深层Transformer的预训练语言模型。BERT不仅充分利用了大规模无标注文本来挖掘其中丰富的语义信息,同时还进一步加深了NLP模型的深度。

1. 整体结构

BERT的基本模型结构由多层Transformer构成,包含两个预训练任务:掩码语言模型(MLM)和下一个句子预测(NSP)。如下图所示:

模型输入:[CLS] + Masked Sentence A + [SEP] + Masked Sentence B + [SEP]

MLM对输入形式没有特别要求,而NSP要求模型的输入是两段文本,因此BERT在预训练阶段的输入形式统一为上述形式。

2. 输入表示

BERT的输入表示由词向量、块向量、位置向量之和组成。

为了计算方便,在BERT中,这三种向量维度均为 e e e,大小为 N ⋅ e N \cdot e Ne(N表示序列最大长度)。

接下来计算这三种向量的计算方法

2.1 词向量

与传统神经网络相似,BERT中的词向量同样通过词向量矩阵将输入文本转换成实值向量表示。具体地,假设输入序列 x x x对应的one-hot向量为 e t ∈ R N × ∣ V ∣ e^t \in \mathbb{R}^{N\times|V|} etRN×V,其对应的词向量表示为 v t v_t vt
v t = e t W t v^t=e^tW^t vt=etWt
式中, W t ∈ R ∣ V ∣ × e W^t \in \mathbb{R}^{|V|\times e} WtR

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值