摘要
学习中文NLP,记录学习历程,顺便弄个WIKI
持续更新中。。。。
Chapter 1
中文分词
中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/
ansj分词器 https://github.com/NLPchina/ansj_seg
哈工大的LTP https://github.com/HIT-SCIR/ltp
清华大学THULAC https://github.com/thunlp/THULAC
斯坦福分词器 https://nlp.stanford.edu/software/segmenter.shtml
Hanlp分词器 https://github.com/hankcs/HanLP
结巴分词 https://github.com/yanyiwu/cppjieba
KCWS分词器(字嵌入+Bi-LSTM+CRF) https://github.com/koth/kcws
ZPar https://github.com/frcchang/zpar/releases
IKAnalyzer https://github.com/wks/ik-analyzer
详情请看知乎文章: 其中竹间智能 Emotibot的回答最有参考价值
https://www.zhihu.com/question/19578687
PS: 实测我的MBA Yosemite装不了HIT-LTP (T.T)
Chapter3: 分词技术
语料库链接(在百度上搜索了一些,发现能用的还是挺多):
1. 《某位不知名NLPer的整理》
常见的三种分词技术
- 机械式分词法(基于词典)
- 基于语法和规则的分词法
- 基于统计的分词法(要考虑词粒度等)