由于自己现在也是在学习阶段,所以很有可能会有些讲解不当的地方,大家可以留言讨论
IKAnalyzer的包结构具体如下:
其中的lucence,solr是基于lucene的应用, 我这里只用到IKAnalyzer独立于Luncene的分词组件,所以不用考虑到这两个包。
cfg是简单的配置管理类,单子模式,即单立模式
dic是词典目录
analyzer是这这个分词系统的主要分词逻辑
seg是这个分词系统的涵盖的各个分词范围,具体如下:
简单而言,CJKSegmenter是负责中文,LetterSegmenter负责字母处理,QuantifierSegmenter负责数量词