什么是BPE BPE字节对编码。他的算法过程可以简单的描述为迭代的将字符串里面出现频率最高的字符子串用一个新的符号来代替. 具体的过程可以参考这两篇博客大佬1 ;大佬2. 优缺点 优点 它是介于字符和单词之间的一种语义单元表示,其可以一定程度上缓解OOV问题,同时也减少了单词表的大小。 缺点 因为他是基于频率统计的,所以对语料的很有依懒性,当我们的语料是通用领域的,而且规模很大,使用BPE效果会很好,但是如果我们语料很少,使用BPE可能会是适得其反。