BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文笔记

Introduction

BERT在11项NLP任务中取得如此令人振奋的成绩主要来源与以下的三个方面:

(1)BERT使用“遮蔽”语言模型去 pre-trained 深度语言表示。

(2)许多pre-trained 模型受限于特种结构、特种模型。BERT使用fine-tuning(微调)模型在众多句子级别或者是单词级别的任务中去得了最先进的效果。

(3)BERT使用双向语言模型在11项NLP任务中都去得了最先进的效果。

 

Related Work

众多的实验证明了基于预训练的语言模型效果是真实有效的。预训练的语言模型主要有两种:

(1)基于特征方法的

对于众多的词嵌入技术,他们使用的都是基于特征方法的。其中包括我们熟知的 Word2Vec(https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf),Glove(https://www.aclweb.org/anthology/D14-1162),和基于上下文特征的ELMO语言模型(http://aclweb.org/anthology/N18-1202)。

(2)基于微调方法的

近年来对于基于迁移学习的语言模型吸引了越来越多的目光。它们最大的好处就是在下游任务中只需要重新学习少量的特殊化参数,使得pre-trained的优势能够以非常低的成本应用到更多的任务中去。其中Open AI GPT(https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf)表现的十分出色。

BERT

Model Architecture

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值