- 结巴分词:https://github.com/fxsjy/jieba
- 斯坦福分词:http://www.zmonster.me/2016/06/08/use-stanford-nlp-package-in-nltk.html
- http://acepor.github.io/2015/12/22/Stanford-Cn/
分词算法
1. 查找字典算法
- 基于字典匹配
1.1 词的查找方法
- Trie树
- 三叉Trie树
- 字典格式
2. 最长匹配中文分词
2.1 正向最大长度匹配法
- 每次从字典找和待匹配串前缀最长匹配的词