Bert输入与输出

最新推荐文章于 2024-08-31 21:25:08 发布

Pchoy

最新推荐文章于 2024-08-31 21:25:08 发布

阅读量1.1w

点赞数 6

分类专栏：深度学习

本文链接：https://blog.csdn.net/qq_33182424/article/details/105978487

版权

BERT模型的输入包括词向量、段向量和位置向量。词向量是主要的词信息，段向量用于区分上下文，位置向量补充Transformer无法记忆的时序信息。输出可通过get_sequence_output()获取每个位置的表示向量，适用于seq2seq或NER任务；通过get_pooled_output()获取句子的综合表示，适用于分类任务。BERT输入长度有限制，注意[CLS]和[SEP]的特殊含义。

摘要由CSDN通过智能技术生成

bert模型的输入

在这里插入图片描述
如图
上图显示的是BERT输入表示
总述：输入嵌入分别是token embeddings, segmentation embeddings 和position embeddings 的总和

BERT最主要的组成部分便是，词向量（token embeddings）、段向量(segment embeddings)、位置向量(position embeddings)

词向量：是模型中关于词最主要的信息
段向量：是因为BERT里面的下一句的预测任务，所以会有两句拼接起来，上句与下句，上句有上句段向量，下句则有下句段向量，也就是图中A与B。此外，句子末尾都有加[SEP]结尾符，两句拼接开头有[CLS]符
位置向量：是因为 Transformer 模型不能记住时序，所以人为加入表示位置的向量
之后这三个向量拼接起来的输入会喂入BERT模型，输出各个位置的表示向量