说明
到目前为止,就中文分词工具和中文分词方法而言,分词模型大概有10几个种类,效果较好的并不多,HMM,MMSEG之类的,当然还有深度学习的模型,paddle的模型比较好。按工具名说的话有中科院的nlpir,哈工大的ltp,不知何出的jieba,还有清华北大都有分词工具,还有很多,十几种应该有。所有工具我都看了的效果并不是他们吹嘘的那么好,很多场景都无法正常分词。
主要问题:
同样的词在不同的句子中分词效果不一样;
未登录词,也就是常见的专有名词,无法处理;
歧义句子;
现在语言多国语言混输;
文言文这种,常人无法看懂的文章。
这些问题解决思路:通过Natural Language Understanding和Reinforcement Learning,应该还没人研究出来;
正文
这里用maven,IK分词找不到单独实现的包,因为它实现在lucene所以需要借用lucene-core
org.apache.lucene
lucene-core
8.6.3
com.jianggujin
IKAnalyzer-lucene
8.0.0
java代码,注意包名这里没添加
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
im