【经典论文阅读20】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

原创

已于 2024-05-03 10:15:44 修改 · 5.4k 阅读

63 ·

CC 4.0 BY-SA版权

喜欢文章？请私信联系作者。

文章标签：

#深度学习 #nlp #bert #论文阅读

于 2020-08-19 17:54:26 首次发布

本文全面解析BERT模型，涵盖其架构、预训练方法及应用，包括特征抽取、fine-tuning、与word2vec对比，以及如何利用BERT进行词嵌入。

0.前言

文章来源： CSDN@说文科技
本文总结了初学者对BERT的一些常见疑惑
BERT 的五个关键词： Pre-training、Deep、Bidirectional、Transformer、Language Understanding

1. `Bert`是什么？

首先要明白什么是预训练模型【这个我后面再更~】。在这个基础上，我们来看 Bert 模型。

1.1 定义

标志BERT出身的那篇论文的标题是BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding，论文链接。
BERT（ Bidirectional Encoder Representation from Transformers，其中文译名应该就是“基于transformers 的双向（深度）编码表示”）

Bert is a method of pretraining language representations

BERT是首个无监督的、深度双向预训练NLP模型，仅使用纯文本语料库进行训练。

1.2 特点

Bert最关键两点，一点是特征抽取器采用Transformer；第二点是预训练的时候采用双向语言模型。
BERT 是从大量的文本中经过半监督训练得来

2.`BERT`可以做什么？

You can either use these models to extract high quality language features from your text data, or you can fine-tune these models on a specific task (classification, entity recognition, question answering, etc.) with your own data to produce state of the art predictions.

主要可以用于两种用途，也就是：

extract feature
fine-tuning model

3.`Embedding` 有什么用？

First, these embeddings are useful for keyword/search expansion, semantic search and information retrieval.
【即使没有关键字重叠，还是可以找出比较相似的句子】

Second, and perhaps more importantly, these vectors are used as high-quality feature inputs to downstream models.
这句话说的意思就是：使用Bert得到的embedding可以为下游任务提供高质量的特征。

4.`BERT` 和 `word2vector`

（1）word2vec 相关的内容可以参考我的另外一篇文章。word2vec 的思想是非常重要的，很多模型的背后都有这种思想。所以还需要认真阅读。
（2）这两者都是nlp发展路程上的一个里程碑，只不过word2vec很少出现在当下的论文里，而bert尚流行于世。但是二者的思想都是相通的，都是想将文本的特征映射到一个高维的向量中，并尽可能完整地保留所有特征（实际上这是很难的）。

4.1 二者的关系

BERT是 word2vec的高级进化版，进化的后果【用进废退】就是：BERT广泛成长，word2vec逐渐废弃。

4.2 二者的区别

Bert 与 word2vec 的区别是：word2vec中每个单词都有一个固定的表示，而与单词出现的上下文无关；bert生成的单词表示是由单词周围的单词动态形成的。

为什么使用word2vec得到的embedding 与上下文无关？
传统的word2vec包括很多种方法，比如：cbow,skip-gram 等都是常用的基础算法。这些算法都会有一个固定大小的词表，与这个词表对应有一个相应大小的矩阵（这个矩阵可训练，根据预先得到的数据训练，训练好就停止了）。如果需要某个词的embedding，就去这个词表矩阵中获取就可以了，所以说传统的word2vec得到的向量是固定的，那么以后无论在什么上下文中得到的向量都是相同的，所以说是上下文无关。