动机 对于LLM,对text进行tokenize最原始的想法是每个词对应一个编号。但一旦语言变多,token list映射表就会特别大,因此需要一种数据压缩方法去减少token list size 算法 计算相邻字符的组合出现频率,频率最高(假设为xy组合出现n次最多)的组合在一起,x_count-=n,y_count-=n,xy=n,若频率减到零就从表格中删除掉。 算法中止条件可根据token list size 或者 固定算法迭代次数