1、BEP(Byte Pair Encoding:):
BPE 不断的迭代将出现频率最高的字符或字符序列进行合并
2、wordPiece
根据语言模型进行合并,它是从所有可能的subword单元中,选择一个subword单元加入语言模型后,如果该单元能最大程度地增加训练数据LM概率,则将该单元作为新的单元
1、BEP(Byte Pair Encoding:):
BPE 不断的迭代将出现频率最高的字符或字符序列进行合并
2、wordPiece
根据语言模型进行合并,它是从所有可能的subword单元中,选择一个subword单元加入语言模型后,如果该单元能最大程度地增加训练数据LM概率,则将该单元作为新的单元