在某乎上看到的,感觉有一定道理。 segmentation是将一个字符串切分成若干可以进一步处理的单元,tokenization是将一个字符串转换成若干单元,因此存在合并的情况。 比如人名lee lei应该看做一个词,这一步显然不是segmentation而是tokenization。 详见:https://www.zhihu.com/question/304960383