solr分词困扰了我两天有余,最终终于出来了,把我的配置过程分享给大家。
1、 版本信息:
solr:4.5.1
ik-analyzer:IK Analyzer 2012FF_hf1
2、下载地址:
Ik Analyzer 2012FF_hf1.zip :http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip
solr-4.5.1.zip : http://lucene.apache.org/solr/
tomcat7:http://tomcat.apache.org/download-70.cgi
3、配置solr
解压下载后的Ik Analyzer 2012FF_hf1.zip 文件可得到如下所示的文件目录结构
(1)
在D盘根目录下面建一个目录 SOLR_HOME。
把解压后的solr-4.5.1\example 下的solr文件夹 拷贝到新建的SOLR_HOME目录下
(2)在自己的tomcat的server.xml文件(我的目录为D:\tomcat7\conf\server.xml)中加入URIEncoding="UTF-8"如下图所示:
主要目的是让tomcat支持中文
(3)
把Ik Analyzer 2012FF_hf1.zip解压后里面的文件IKAnalyzer2012FF_u1.jar拷贝到D:\tomcat7\webapps\solr\WEB-INF\lib(前面我的博客里的相关文章已经说明了solr的基础配置)下面。
把IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf下面我的目录是(D:\SOLR_HOME\solr\collection1\conf)。
(4)
修改D:\SOLR_HOME\solr\collection1\conf\配置文件中schema.xm的配置,在<types></types>配置项间加一段如下配置:
4.测试中文分词
输入想进行分词的中文内容,选择我们配置好的查询类型,点击查询按钮就得到如上图所示的查询结果。