wordninja是一个对连续英文字符串进行分词的工具,例如:
import wordninja
str = "IloveChinaandIlovetheworld"
print(wordninja.split(str))
#['I', 'love', 'China', 'and', 'I', 'love', 'the', 'world']
Probabilistically split concatenated words using NLP based on English
Wikipedia uni-gram frequencies
wordninja是基于wiki百科语料的频率来进行分词的,在英语语言中比较合理地认为分布遵循齐夫定律 (Zipf’s Law),根据出现概率