1.简要介绍
BERT方法提出后可谓横扫NLP领域众多的state-of-the-art。BERT的核心思路是打破以往预训练模型只关注单向语义,采用双向Transformers,以masked language model(MLM)实现深度的双向语言表征。
2.BERT的输入
BERT的输入为每一个token对应的表征(图中的粉红色块就是token,黄色块就是token对应的表征),并且单词字典是采用WordPiece算法来进行构建的。为了完成具体的分类任务,除了单词的token之外,作者还在输入的每一个序列开头都插入特定的分类token([CLS]),该分类token对应的最后一个Transformer层输出被用来起到聚集整个序列表征信息的作用。
BERT原文如下:
https://arxiv.org/pdf/1810.04805.pdf