solr4配置

最新推荐文章于 2018-07-30 16:21:32 发布

xmdu

最新推荐文章于 2018-07-30 16:21:32 发布

阅读量1k

点赞数 1

分类专栏： solr 文章标签： solr+ IKAnalyzer 同义词分词扩展词

本文链接：https://blog.csdn.net/duxiaomeng1986_2008/article/details/48549811

版权

solr 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Solr4.10.3安装配置

环境准备

solr4.10.3下载地址:
http://archive.apache.org/dist/lucene/solr/

tomcat8下载地址:
http://tomcat.apache.org/download-80.cgi

安装jdk8,配置好环境变量

tomcat启动solr配置步骤

1：解压tomcat与solr压缩包,为了方便操作，最好放入同一个目录下
本次示例solr与tomcat目录分别是F:\solr410\solr-4.10.3；F:\solr410\tomcat8solr410
2：将F:\solr410\solr-4.10.3\dist下的solr的war包拷贝到F:\solr410\tomcat8solr410\webapps 下，并且改名为solr.war
3：将F:\solr410\solr-4.10.3\example\lib\ext 目录下的包拷贝到F:\solr410\tomcat8solr410\lib下。这样才能顺利启动tomcat并且使solr.war解压
4：启动tomcat，成功启动后关闭tomcat。这样就将F:\solr410\tomcat8solr410\webapps下面的solr.war解压，产生一个solr文件夹,删除solr.war文件
5：将F:\solr410\solr-4.10.3\dist 下的solr-dataimporthandler-4.10.3.jar 与solr-dataimporthandler-extras-4.10.3.jar 包拷贝到F:\solr410\tomcat8solr410\webapps\solr\WEB-INF\lib目录下
6：在F:\solr410\tomcat8solr410\webapps\solr\WEB-INF\下创建一个文件夹classes。该文件夹后面可以用来存放solr的log4j文件与扩展词，停止词等配置文件
7：将F:\solr410\solr-4.10.3\example\resources下的log4j文件复制到步骤6创建的classes目录下。
8：在tomcat根目录下创建一个文件夹solr，F:\solr410\tomcat8solr410\solr，选择F:\solr410\solr-4.10.3\example\example-DIH\solr目录下的db文件夹及solr.xml配置文件拷贝到刚才创建的目录下
9：修改F:\solr410\tomcat8solr410\solr 下的solr.xml文件将5-8行全部删除，因为我们只拷贝了db.下面几个solr core目录并没有拷贝。
10：修改F:\solr410\tomcat8solr410\webapps\solr\WEB-INF下的web.xml文件，添加以下节点及配置

<env-entry>
   <env-entry-name>solr/home</env-entry-name>
   <env-entry-value>F:\solr410\tomcat8solr410\solr</env-entry-value>
   <env-entry-type>java.lang.String</env-entry-type>
</env-entry>

11：启动tomcat,并且访问 http://localhost:8080/solr。可以进入solr的管理页面。并且存在一个core：db.如果页面没有任何红色的警告，表明solr与tomcat集成已经成功

IKAnalyzer 分词，扩展词库，停止词，同义词配置

因为solr的版本更新太快，而且solr没有自带中文分析能力，所以我们在这边需要选择一个中文分词工具集成进solr,完成中文分词的能力。当前比较流行的有IKAnalyzer,Paoding,mmseg4j
本例中选择IKAnalyzer进行分词。

1：国情需要IKAnalyzer包已经不能从google下载。本人会上传至CSDN上。供大家下载
2：将IKAnalyzer2012FF_u1.jar包拷贝到F:\solr410\tomcat8solr410\webapps\solr\WEB-INF\lib目录下.
**3：**F:\solr410\tomcat8solr410\webapps\solr\WEB-INF\classes 目录下添加扩展词文件：etc.dic,停止词文件:stopword.dic,管理文件：IKAnalyzer.cfg.xml
4： etc.dic 扩展词从第二行生效，每一行填写一个词，例如在第二行添加词：苏宁易购
**5：**stopword.dic可以存放一些不需要单独分词的连接词。
**6：**IKAnalyzer.cfg.xml 文件内容为：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
    <comment>IK Analyzer 扩展配置</comment>
    <!--用户可以在这里配置自己的扩展字典 -->
    <entry key="ext_dict">etc.dic;</entry> 
    <!--用户可以在这里配置自己的扩展停止词字典-->
    <entry key="ext_stopwords">stopword.dic;</entry> 
</properties>

7：在F:\solr410\tomcat8solr410\solr\ams\conf目录下的schame.xml文件中添加节点

<fieldType name="text_zh" class="solr.TextField" positionIncrementGap="100">    
 <analyzer type="index">    
   <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory"  isMaxWordLength="false"/>    
   <filter class="solr.LowerCaseFilterFactory"/>    
 </analyzer>    
 <analyzer type="query">    
   <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory"  isMaxWordLength="true"/>         
   <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>    
   <filter class="solr.LowerCaseFilterFactory"/>    
 </analyzer>    
</fieldType>

第一个节点只有分词能力，第二个节点使用的是IKAnalyzer2012FF_u1.jar的扩展方法。具有同义词能力。童鞋们都可以拷贝进去体验体验

8：启动tomcat，重新刷新一下http://localhost:8080/solr.选择db-Analysis
，在两个文本框中输入 苏宁易购的东西不错 可以选择text_ik 与 text_zh分别查看效果。
9：打开F:\solr410\tomcat8solr410\solr\ams\conf目录下的synonyms.txt文件。在最后一行加上：苏宁易购,suning。重新启动tomcat，刷新页面。选择text_zh体验分词结果。会发现在查询的时候 苏宁易购 旁边出现 suning 的同义词

**10:**F:\solr410\tomcat8solr410\solr\ams\conf目录下schame.xml文件中选择一个file，type属性改为 text_zh 或者 text_ik就能实现该字段的分词查询效果。