BERT: Pre-training of Deep Bidirectional Transformers for Language Understading

68 篇文章 2 订阅
60 篇文章 1 订阅
BERT通过预训练深度双向Transformer模型,突破单向语言模型限制,实现SOTA。采用Masked Language Model和Next Sentence Prediction任务,适用于多种NLP任务,刷新7项任务记录。
摘要由CSDN通过智能技术生成

Abstract

BERT: Bidrectional Encoder Representations from Transformers.
BERT与之前的语言表示模型不同,它通过在所有层同时依赖左边和右边的上下文来预训练一个深度双向语言表示。

通过这种方式预训练的表示只需要一个额外的输出层来fine-tune一下就可以在众多任务上实现SOTA。

BERT一共在7个自然语言处理任务上获得SOTA结果,并且将GLUE benchmark提高到80.4(绝对值提高7.6%),MultiNLI accuracy提高到86.7%(绝对值提高5.6%),SQuAD v1.1测试集F1提高到93.2(绝对值提高1.5),比真人得分还高2.0.

Introduction

将预训练语言表示应用到下游任务有两种策略:

  • feature based
  • fine-tuning

Feature based方法(例如ELMo)使用任务特定的架构,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值