论文笔记《BERT》

论文题目:BERT-Bidirectional Encoder Representations from Transformers

Masked Language Model(MLM)

随机掩码语言模型:

  • 给定一个输入序列:[CLS] The dog jumped over the log. [SEP]
  • 随机mask15%的token:[CLS] The dog jumped [MASK] the log. [SEP]
  • 预测原本单词的值:Prediction='over'

BERT模型的输入:

  • 随机mask15%的token,以一个特殊的token:[MASK]代替
  • Token Embedding + Segmentation Embedding + Position Embedding
  • 输入形式:[CLS] sentence1 [SEP] sentence2 [SEP]

特点:

  • 类似于降噪自动编码机(Denoising Auto-Encoder, DAE),而BERT仅仅通过corrupted input sentence预测被mask的位置的词,而不需要还原整个句子。
  • 做到了双向语言模型(Bidirectional Language Model),在预测中心词的过程中通过模型对整个文章的编码可以得到上下文的信息,去预测中心词出现的概率。

优化的目标函数:

max_{\theta} logp_{\theta}(\bar{x}|\hat{x})\approx \sum_{t=1}^{T}m_{t}logp_{\theta}(x_{t}|\hat{x})

其中,\bar{x}表示重建后的句子,\hat{x}表示随机mask后的句子,如果第t个token被mask,则m_{t}=1

与GPT2的比较

BERT与GPT2沿用了相同的架构,都是多层Transformer。

区别:

  • BERT:Masked LM,可以捕捉到整个上下文的信息
  • GPT2:Left2Right LM,通过对于Attention mask的限定,可以让第t个位置的词仅仅看到前t-1位置的词,这样的训练方式导致GPT2模型只能建模前向的概率分布

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值