Devlin2018Google_BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT是一种基于Transformer的深度双向预训练模型,用于语言理解。它通过遮蔽语言模型和下一个句子预测任务进行预训练,无需大规模修改即可适应各种NLP任务,刷新11项NLP记录。BERT在所有层中联合使用上下文信息,解决了单向语言模型的局限性。
摘要由CSDN通过智能技术生成

1. Abstract

  • BERT是一个基于上下文信息的深度双向表示预训练模型
  • 对于一个具体任务(QA、机器翻译等),只需在BERT模型基础上添加一个输出层进行fine-tuned即可(得到一个针对这个任务的、性能优良的模型),无需再做大规模修改

2. Introduction

目前两种主流预训练语言表示的应用策略:

  1. feature-based:将预训练表示作为额外特征,并使用tasks-specific结构的方法,如ELMo1
  2. fine-tuning:尽可能少地引入task-specific参数,并在预训练参数的基础上,利用实际任务的训练进行微调,如Generative Pre-trained Transformer (OpenAI GPT)2

作者认为,当下的技术未能将预训练表示(尤其是fine-tuning方法)的作用完全开发,原因在于单向(只基于上文或只基于下文)的标准语言模型限制了预训练时结构的选择。因此作者在双向遮蔽语言模型(masked language model)思想的基础上提出了BERT方法:

Bidirectional Encoder Representations from Transofrmers

主要贡献:

  1. 首个基于微调的表示模型,在大量句子级和token级任务上实现最先进的性能,强于许多面向特定任务体系架构的系统
  2. 证明了双向预训练对于语言表示的重要性。与使用OpenAI和ELMo等单向语言模型进行预训练不同,BERT使用遮蔽语言模型来;实现预训练的深度双向表示证明了双向预训练对于语言表示的重要性。与使用OpenAI和ELMo等单向语言模型进行预训练不同,BERT使用遮蔽语言模型来;实现预训练的深度双向表示
  3. 刷新11项NLP记录刷新11项NLP记录

3. BERT

3.1 Model Architecture

模型结构:

多层双向Transformer3编码器

参数:

层(Transformer blocks)数 隐层大小 self-Attention heads 个数 feed-forward/filter size
L L L H H H A A A 4 H 4H 4H

文中使用的两个模型:

L L L H H H A A A
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值