solr5.5.3 集成ik-analyzer中文分词(五)

1、下载 ik-analyzer-solr5 源码(https://github.com/EugenePig/ik-analyzer-solr5)
根据打包并安装到本地maven仓库
JDK8
mvn clean install

JDK7
mvn clean -Djavac.src.version=1.7 -Djavac.target.version=1.7 install

2、安装solr,并创建core名称为ik-core 参考:http://blog.csdn.net/convict_eva/article/details/53306388

3、ik-core 加载ik-analyzer-solr5-5.x.jar。
有两种方式
1)修改ik-core的solrconfig.xml,在config 标签中加入以下配置(在ik-core 目录下创建lib目录,并把ik-analyzer-solr5-5.x.jar 包导入)。
<lib dir="${solr.install.dir:}/lib/" regex="\*\.jar" />
2)把上一步生成的jar包,导入到tomcat solr 工程的lib目录下。

4、配置managed-schema.xml
添加属性类型配置:
<fieldType name="text_ik" class="solr.TextField">   
  <analyzer type="index" useSmart="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
  <analyzer type="query" useSmart="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>   
</fieldType>

5、测试


如:
中华人民共和国是一个伟大的国家
分词结果为(图长一屏截不下):
中华人民共和国 | 中华人民 | 中华 | 华人 | 人民共和国 | 共和国 | 共和 | 国是 | 一个 | 伟大 |  国家
对比mmseg4j分词:http://blog.csdn.net/convict_eva/article/details/53319364 , 会发现ik 分词结果比mmseg4j 细。


参考:
https://code.google.com/archive/p/ik-analyzer/
https://github.com/EugenePig/ik-analyzer-solr5

©️2020 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值