BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文笔记

最新推荐文章于 2024-04-12 22:32:19 发布

羽_羊

最新推荐文章于 2024-04-12 22:32:19 发布

阅读量4.4k

点赞数 2

分类专栏： NLP 文章标签： BERT Transformer masked language model multi-layer bidirectional Tran language model

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38031488/article/details/83930947

版权

Introduction

BERT在11项NLP任务中取得如此令人振奋的成绩主要来源与以下的三个方面：

（1）BERT使用“遮蔽”语言模型去 pre-trained 深度语言表示。

（2）许多pre-trained 模型受限于特种结构、特种模型。BERT使用fine-tuning（微调）模型在众多句子级别或者是单词级别的任务中去得了最先进的效果。

（3）BERT使用双向语言模型在11项NLP任务中都去得了最先进的效果。

Related Work

众多的实验证明了基于预训练的语言模型效果是真实有效的。预训练的语言模型主要有两种：

（1）基于特征方法的

对于众多的词嵌入技术，他们使用的都是基于特征方法的。其中包括我们熟知的 Word2Vec（https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf），Glove（https://www.aclweb.org/anthology/D14-1162），和基于上下文特征的ELMO语言模型（http://aclweb.org/anthology/N18-1202）。

（2）基于微调方法的

近年来对于基于迁移学习的语言模型吸引了越来越多的目光。它们最大的好处就是在下游任务中只需要重新学习少量的特殊化参数，使得pre-trained的优势能够以非常低的成本应用到更多的任务中去。其中Open AI GPT（https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf）表现的十分出色。

BERT

Model Architecture

最低0.47元/天解锁文章

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文笔记

IntroductionBERT在11项NLP任务中取得如此令人振奋的成绩主要来源与以下的三个方面：（1）BERT使用“遮蔽”语言模型去 pre-trained 深度语言表示。（2）许多pre-trained 模型受限于特种结构、特种模型。BERT使用fine-tuning（微调）模型在众多句子级别或者是单词级别的任务中去得了最先进的效果。（3）BERT使用双向语言模型在11项NL...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。