在BERT和ERNIE等预训练模型的词汇表文件vocab.txt中,有[PAD],[CLS],[SEP],[MASK],[UNK]这几种token,它们代表的具体含义如下:
1,[PAD]
要将句子处理为特定的长度,就要在句子前或后补[PAD]
2,[CLS]
这个标志放在句子的首位,表示句子的开始
3,[SEP]
这个标志用于分开两个输入句子,例如输入句子 A 和 B,要在句子 A,B 后面增加 [SEP] 标志。
4,[MASK]
这个标志用于遮盖句子中的一些单词
5,[UNK]
词典内没有的词被标为[UNK]