Devlin2018Google_BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

最新推荐文章于 2024-07-12 17:16:19 发布

Geek Fly

最新推荐文章于 2024-07-12 17:16:19 发布

阅读量3.6k

点赞数 2

分类专栏：论文阅读文章标签： nlp google machine learning deep learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Real_Brilliant/article/details/83344530

版权

BERT是一种基于Transformer的深度双向预训练模型，用于语言理解。它通过遮蔽语言模型和下一个句子预测任务进行预训练，无需大规模修改即可适应各种NLP任务，刷新11项NLP记录。BERT在所有层中联合使用上下文信息，解决了单向语言模型的局限性。

摘要由CSDN通过智能技术生成

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

1. Abstract
2. Introduction
3. BERT
总结

1. Abstract

BERT是一个基于上下文信息的深度双向表示预训练模型
对于一个具体任务（QA、机器翻译等），只需在BERT模型基础上添加一个输出层进行fine-tuned即可（得到一个针对这个任务的、性能优良的模型），无需再做大规模修改

2. Introduction

目前两种主流预训练语言表示的应用策略：

feature-based：将预训练表示作为额外特征，并使用tasks-specific结构的方法，如ELMo¹。
fine-tuning：尽可能少地引入task-specific参数，并在预训练参数的基础上，利用实际任务的训练进行微调，如Generative Pre-trained Transformer (OpenAI GPT)²。

作者认为，当下的技术未能将预训练表示（尤其是fine-tuning方法）的作用完全开发，原因在于单向（只基于上文或只基于下文）的标准语言模型限制了预训练时结构的选择。因此作者在双向和遮蔽语言模型（masked language model）思想的基础上提出了BERT方法：

Bidirectional Encoder Representations from Transofrmers

主要贡献：

首个基于微调的表示模型，在大量句子级和token级任务上实现最先进的性能，强于许多面向特定任务体系架构的系统
证明了双向预训练对于语言表示的重要性。与使用OpenAI和ELMo等单向语言模型进行预训练不同，BERT使用遮蔽语言模型来；实现预训练的深度双向表示证明了双向预训练对于语言表示的重要性。与使用OpenAI和ELMo等单向语言模型进行预训练不同，BERT使用遮蔽语言模型来；实现预训练的深度双向表示
刷新11项NLP记录刷新11项NLP记录

3. BERT

3.1 Model Architecture

模型结构：

多层双向Transformer³编码器

参数：

层（Transformer blocks）数	隐层大小	self-Attention heads 个数	feed-forward/filter size
$L$	$H$	$A$	$4 H$

文中使用的两个模型：

	$L$	$H$	$A$

最低0.47元/天解锁文章

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。