Paoding's Knives (庖丁解牛分词)基于Java的开源中文分词器组件,提供lucene和sore接口,具有 高效率和高扩展性。引入隐喻,采用完全的面向对象涉及,构思先进。
高效率:在Plll 1G内存个人机器上,1秒可准确分词100万汉字。
采用基于 不限制个数的词典文件对文章进行有效的切分,使能够对词汇分类定义。
能够对未知的词汇进行合理解析,仅支持java语言。
使用paoding的步骤,需要paoding-dic-home.properties中添加
paoding.dic.home=classpath:dic
paoding.dic.home.config-fisrt=this
测试:
结果: