分词是自然语言处理的第一步,这里主要从序列标注的角度递进介绍HMM如何实现分词,然后介绍分词工具的使用,在NLP中,分词、词性标注和命名实体识别都属于标注任务,也就是对token进行分词,对于分词任务难点有以下几个:
- 新词的发现
未登陆此(人名、地名、商标名、公司名称)
2. 词典与算法优先级
我们 中信 仰 佛教 的 人
3. 歧义(颗粒度、交集等)
股份 有限公司 、郑州天和服装厂
分词的算法大致分为两种:
1.基于词典的分词算法
正向最大匹配算法
逆向最大匹配算法
双向匹配分词法
2.基于统计的机器学习算法
HMM、CRF、SVM、LSTM+CRF
这里列出一些开源的分词系统:
语义分析系统 NLPchina/ansj_segHIT-SCIR/ltp清华大学
The Stanford Natural Language Processing GroupHanlp分词器
yanyiwu/cppjiebakoth/kcws
frcchang/zpar
wks/ik-analyzer
接下来采取理论与代码相结合的方式,介绍HMM分词器的使用:
2.