0.前言
- 文章来源: CSDN@说文科技
- 本文总结了初学者对
BERT的一些常见疑惑 - BERT 的五个关键词:
Pre-training、Deep、Bidirectional、Transformer、Language Understanding
1. Bert是什么?
首先要明白什么是预训练模型【这个我后面再更~】。在这个基础上,我们来看 Bert 模型。
1.1 定义
- 标志BERT出身的那篇论文的标题是
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,论文链接。 - BERT(
Bidirectional Encoder Representation from Transformers,其中文译名应该就是“基于transformers 的双向(深度)编码表示”)
Bert is a method of pretraining language representations
- BERT是首个无监督的、深度双向预训练NLP模型,仅使用纯文本语料库进行训练。
1.2 特点
- Bert最关键两点,一点是特征抽取器采用Transformer;第二点是预训练的时候采用双向语言模型。
- BERT 是从大量的文本中经过半监督训练得来
2.BERT可以做什么?
You can either use these models to extract high quality language features from your text data, or you can fine-tune these models on a specific task (classification, entity recognition, question answering, etc.) with your own data to produce state of the art predictions.
主要可以用于两种用途,也就是:
- extract feature
- fine-tuning model
3.Embedding 有什么用?
First, these embeddings are useful for keyword/search expansion, semantic search and information retrieval.
【即使没有关键字重叠,还是可以找出比较相似的句子】
Second, and perhaps more importantly, these vectors are used as high-quality feature inputs to downstream models.
这句话说的意思就是:使用Bert得到的embedding可以为下游任务提供高质量的特征。
4.BERT 和 word2vector
(1)word2vec 相关的内容可以参考我的另外一篇文章。word2vec 的思想是非常重要的,很多模型的背后都有这种思想。所以还需要认真阅读。
(2)这两者都是nlp发展路程上的一个里程碑,只不过word2vec很少出现在当下的论文里,而bert尚流行于世。但是二者的思想都是相通的,都是想将文本的特征映射到一个高维的向量中,并尽可能完整地保留所有特征(实际上这是很难的)。
4.1 二者的关系
BERT是 word2vec的高级进化版,进化的后果【用进废退】就是:BERT广泛成长,word2vec逐渐废弃。
4.2 二者的区别
Bert 与 word2vec 的区别是:word2vec中每个单词都有一个固定的表示,而与单词出现的上下文无关;bert生成的单词表示是由单词周围的单词动态形成的。
- 为什么使用
word2vec得到的embedding 与上下文无关?
传统的word2vec包括很多种方法,比如:cbow,skip-gram 等都是常用的基础算法。这些算法都会有一个固定大小的词表,与这个词表对应有一个相应大小的矩阵(这个矩阵可训练,根据预先得到的数据训练,训练好就停止了)。如果需要某个词的embedding,就去这个词表矩阵中获取就可以了,所以说传统的word2vec得到的向量是固定的,那么以后无论在什么上下文中得到的向量都是相同的,所以说是上下文无关。
4.3 Bert 也做 word embedding吗?
Bert 有自己的word to vector方法,可以将其看做是embed

本文全面解析BERT模型,涵盖其架构、预训练方法及应用,包括特征抽取、fine-tuning、与word2vec对比,以及如何利用BERT进行词嵌入。
最低0.47元/天 解锁文章
1410

被折叠的 条评论
为什么被折叠?



