1:jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组件,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。
下载最新版本的jcseg。。http://pan.baidu.com/s/1pJFNBmV 解压
在output目录下有分词所需要的jar包
1:把jcseg-core-1.9.5.jar, jcseg-solr-1.9.5.jar 导入lib中
2:将jcseg词库添加到 lib目录中及将jcseg目录中lexicon目录拷贝
这里要注意:默认放在lib目录下,否则报错。
可以更改引入词库:通过反编译jcseg-core-1.9.5.jar文件。可以发现jcseg.properties配置文件。jcseg.properties中 lexicon.path的值就是词库文件的绝对路径。
最后还是在schema.xml文件中追加
<!--jcseg分词 -->
<fieldType name="text_jcseg" class="solr.TextField">
<analyzer>
<!-- 复杂模式分词: -->
<tokenizer class="org.lionsoul.jcseg.solr.JcsegTokenizerFactory" mode="complex"/>
</analyzer>
</fieldType>
重启服务:
1:ICTCLAS 名:汉语词法分析系统; 由中科院开发。