NLP基础任务
1. 分词
最大匹配分词法:长度优先
1. 前向最大匹配(forward-max matching)
2. 后向最大匹配(backward-max matching)
这种算法有几个缺点:
1. 词典中没有(OOV,out of vocabulary)
2. 分词出现歧义 例如:武汉市长江大桥,会把市长和长江大桥同时分出来,产生歧义
现在有很多现成的模型以及第三方包几乎可以解决这些问题:
- jieba
- LTP
- hanNLP
- snowNLP
2. 词性标注(POS Tagging)
词性标注,part of speech,即