solr本身对中文分词的处理不是太好,所以中文应用很多时候都需要额外加一个中文分词器对中文进行分词处理,ik-analyzer就是其中一个不错的中文分词器。
准备:
下载IK分词工具包 wltea-IK-Analyzer-2012FF-master :点击打开链接
下载solr4.10.4:点击打开链接 或 http://www.apache.org/dyn/closer.lua/lucene/solr/4.10.4
下载 Tomcat(6以上版本),另外可以根据系统下载 32 位或者64位版本:http://tomcat.apache.org/
就绪:
1、solr4.10.4.zip解压后solr-4.10.4\example\webapps下有个solr.war包。拷贝solr-4.10.0\example\webapps\solr.war 到 apache-tomcat\webapps\目录中。而后可直接用解压软件解压该文件,或者启动tomcat,tomcat会自动解压该.war文件,而后可关闭tomcat并删除solr.war。此时在webapps文件夹下产生了一个(解压缩)solr文件夹
2、新建 E:\solr-data 目录 (目录位置随意),拷贝:solr-4.10.0\example\solr 文件夹到 E:\solr-data
3、
修改 E:\solr-data\solr\collection1\conf\solrconfig.xml中
<dataDir>${solr.data.dir:}</dataDir>为
<dataDir>${solr.data.dir:E:/solr-data/solr/collection1/data}</dataDir>
4、修改 apache-tomcat\webapps\solr\WEB-INF\web.xml中
<!--
<env-entry>
<env-entry-name>solr/home</env-entry-name>
<env-entry-value>/put/your/solr/home/here</env-entry-value>
<env-entry-type>java.lang.String</env-entry-type>
</env-entry>
-->
<span style="white-space:pre"> </span>改后:
<env-entry>
<env-entry-name>solr/home</env-entry-name>
<env-entry-value><span style="font-family: Arial, Helvetica, sans-serif;">E:/solr-data</span><span style="font-family: Arial, Helvetica, sans-serif;">/solr</env-entry-value></span>
<env-entry-type>java.lang.String</env-entry-type>
</env-entry>
5、复制:solr-4.10.0\example\lib\ext 下的jar包到 apache-tomcat\webapps\solr\WEB-INF\lib中
6、在 apache-tomcat\webapps\solr\WEB-INF下创建文件 classes文件夹,复制:solr-4.10.0\example\resources\log4j.properties 到:apache-tomcat\webapps\solr\WEB-INF\classes文件夹中
7、解压wltea-IK-Analyzer-2012FF-master\dist下把IKAnalyzer.cfg.xml和stopword.dic拷贝到新创建的classes目录下即可
8、wltea-IK-Analyzer-2012FF-master\dist下把 IKAnalyzer2012FF_u1.jar拷贝到 apache-tomcat\webapps\solr\WEB-INF\lib中
9、启动tomcat 访问 :http://localhost:8080/solr,如图所示,在core selector中选择对应的Core:collection1,并在出现的菜单列表中选择analysis
10、验证分词器是否可用:在右侧面板Analyse Fieldname / FieldType选项中选择定义的FieldType:text_ik,并在Field Value区域输入“我爱编程”,点击Analyse Values验证分词效果。