BERT 模型
BERT的网络架构是基于Vaswani et al. (2017) 中描述的原始实现的multi-layer bidirectional Transformer编码器。BERT使用双向的Transformer,在所有层中同时学习上下文语境特征信息。
1、输入表示
BERT模型的输入表示能够在一个token序列中明确地表示单个文本句子或一对文本句子。对于给定的token,通过对相应的token embeddings、segment embeddings和position embeddings进行融合作为模型的输入。具体如下:
(1)对于token embeddings使用WordPiece嵌入和30,000个token的词汇表。
(2)使用学习的positional embeddings,将词语的位置信息编码成特征向量,表示句子中词语的位置信息,支持的序列长度最多为512个token。每个序列的第一个token始终是特殊分类嵌入([CLS])。对应于该token的最终隐藏状态(即,Transformer的输出)被用作分类任务的聚合序列表示。
(3)句子对被打包成一个序