
【论文速读】BPE算法
在NLP 中,2015年Sennrich 通过论文Neural Machine Translation of Rare Words with Subword Units将这个算法使用在生成Tokenizer的词表上,做法是先将每个文本词(Word)拆分成 Char粒度的字母序列,然后通过迭代地合并最频繁出现的字符或字符序列来实现生成Tokenizer最终词表的过程。4.统计每一个连续字节对的出现频率,选择最高频的字符对合并成新的subword;1.准备足够大的训练语料,确定期望的subword词表大小;


























