BERT基础解析

最新推荐文章于 2024-08-22 14:07:20 发布

余悸�

最新推荐文章于 2024-08-22 14:07:20 发布

阅读量537

点赞数

CC 4.0 BY-SA版权

文章标签： bert 深度学习人工智能

本文链接：https://blog.csdn.net/qq_51567112/article/details/129236363

BERT是一种基于Transformer的预训练语言模型，通过双向编码来捕捉文本的上下文信息。它包含TokenEmbedding、SegmentEmbedding和PositionEmbedding，以及多头注意力、残差连接和FeedForward等机制。预训练阶段涉及掩码语言模型（MLM）和下一个句子预测（NSP）任务，用于学习语言模式和上下文关系。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

BERT：是预训练语言模型之一，其全称是Bidirectional Encoder Representations from Transformers。

语言模型是指：

对于任意的词序列，它能够计算出这个序列是一句话的概率。

定义：假设我们要为中文创建一个语言模型，V表示词典，V={猫，狗，机器......语言}，wi∈V，语言模型就是这样一个模型：给定词典 V ，能够计算出任意单词序列w1,w2,w3......wn，是一句话的概率 p ( w 1 , w 2 , . . . , w n )

预训练是一种迁移学习的概念，预训练模型产生的主要原因是在部分实验领域中，训练样本有限，因此可采取使用其他相近领域存在的大量数据进行模型训练，之后进行微调，得到目标输出。换言之，假设我们有大量的维基百科数据，那么我们可以用这部分巨大的数据来训练一个泛化能力很强的模型，当我们需要在特定场景使用时，例如做医学命名实体识别，那么，只需要简单的修改一些输出层，再用我们自己的数据进行一个增量训练，对权重进行一个轻微的调整即可。典型的预训练语言模型：ELMO、GPT、BERT

BERT的基础结构

N表示多个Encoder块进行堆叠，其中BERT BASE使用12层Encoder，Bert Large使用的是24层Encoder。注意：Bert是由12层的Encoder堆叠在一起，而不是12层的Transform堆叠在一起。

（1）Input:

input=token emb+segment emb+position emb

Token Embedding:

将各个词转换成固定维度的向量，是每个输入字符的编码映射。在BERT中，每个词会被转换成768维的向量表示。在实际代码实现中，输入文本在送入token embeddings 层之前要先进行tokenization处理。此外，两个特殊的token会被插入到tokenization的结果的开头 ([CLS])和结尾 ([SEP])

Segment Embedding:

用于区分一个token属于句子对中的哪个句子。Segment Embeddings 层只有两种向量表示。前一个向量是把0赋给第一个句子中的各个token, 后一个向量是把1赋给第二个句子中的各个token。如果输入仅仅只有一个句子，那么它的segment embedding就是全0 。

Position Embedding:

Transformers无法编码输入的序列的顺序性，所以要在各个位置上学习一个向量表示来将序列顺序的信息编码进来,Bert采用随机初始化让模型学习每个位置的Embedding，区别于transofrm使用正余弦函数进行Position Embedding。加入position embeddings会让BERT理解下面下面这种情况，“ I think, therefore I am ”，第一个 “I” 和第二个 “I”应该有着不同的向量表示。

（2）Multi-head Attention

注意力机制：