Solr4.7 配置中文分词

一、下载solr

         实验的版本:4.7.0

         下载地址:http://mirrors.hust.edu.cn/apache/lucene/solr/4.7.0/solr-4.7.0.tgz

二、部署处理

建立一个solr的home目录,比如建在/data/solrhome,进入上面解压目录/solr-4.7.0/example/solr

 

把这个文件夹里面所有的文件copy到/data/solrhome,进入/data/solrhome/collection1/conf,里面有个solrconfig.xml文件并打开:  

<lib dir="../../../contrib/extraction/lib" regex=".*\.jar" />
  <lib dir="../../../dist/" regex="solr-cell-\d.*\.jar" />

  <lib dir="../../../contrib/clustering/lib/" regex=".*\.jar" />
  <lib dir="../../../dist/" regex="solr-clustering-\d.*\.jar" />

  <lib dir="../../../contrib/langid/lib/" regex=".*\.jar" />
  <lib dir="../../../dist/" regex="solr-langid-\d.*\.jar" />

  <lib dir="../../../contrib/velocity/lib" regex=".*\.jar" />
  <lib dir="../../../dist/" regex="solr-velocity-\d.*\.jar" />

把这几个配置注释掉,暂时用过不到。      

<!--
  <lib dir="../../../contrib/extraction/lib" regex=".*\.jar" />
  <lib dir="../../../dist/" regex="solr-cell-\d.*\.jar" />

  <lib dir="../../../contrib/clustering/lib/" regex=".*\.jar" />
  <lib dir="../../../dist/" regex="solr-clustering-\d.*\.jar" />

  <lib dir="../../../contrib/langid/lib/" regex=".*\.jar" />
  <lib dir="../../../dist/" regex="solr-langid-\d.*\.jar" />

  <lib dir="../../../contrib/velocity/lib" regex=".*\.jar" />
  <lib dir="../../../dist/" regex="solr-velocity-\d.*\.jar" />
-->

同样是这个文件,在里面找到下面这项配置,这个是指定你的索引文件存在什么地方的  

<dataDir>${solr.data.dir:}</dataDir>

我的索引文件是存在:/data/solrindex,把配置改成如下配置就可以了,保存修改后的文件。  

<dataDir>${solr.data.dir:/data/solrindex}</dataDir> 

进入solr压缩包得解压目录dist,里面有个solr-4.7.0.war包,复制到你的tomcat下的webapp目录,并解压到该目录下的solr目录,删除tomcat的webapp下的solr-4.7.0.war包。解压后进入solr目录,这个目录就是一个标准的web项目的目录了。

进入WEB-INF目录,找到web.xml用记事本等文本编辑工具打开,找到下面这段配置,env-entry-value这项配置,这个配置是指定你的solr的home目录,例如我的是:/data/solrhome

<env-entry>
       <env-entry-name>solr/home</env-entry-name>
       <env-entry-value>/data/solrhome</env-entry-value>
       <env-entry-type>java.lang.String</env-entry-type>
    </env-entry>

这时候我们启动会报错,说找不到一些类,这些类是log4j相关的,记日志用的。

需要的jar包如下:

1)commons-logging-1.1.jar,网上找个

2)dom4j-1.6.1.jar     在solr-4.7.0\dist\solrj-lib有

3)slf4j-api-1.6.6.jar    在solr-4.7.0\dist\solrj-lib有

4)slf4j-log4j12-1.6.6.jar   在solr-4.7.0\dist\solrj-lib有

找好上面4个jar包丢到tomcat的webapps\solr\WEB-INF\lib下面。

启动tomcat,浏览器进入:http://localhost:8080/solr,便进入了solr的管理界面了

三、配置IK中文分词器。

1.下载最新的Ik中文分词器。

下载地址:http://ik-analyzer.googlecode.com/files/IK%20Analyzer%202012FF_hf1.zip

2.解压IK Analyzer 2012FF_hf1.zip,获得IK Analyzer 2012FF_hf1。将该目录下的IKAnalyzer.cfg.xml,stopword.dic放到之前安装TOMCAT_HOME/webapps/solr/WEB-INF/classes目录下(没有就创建classes文件夹。) IKAnalyzer2012FF_u1.jar放到之前安装的TOMCAT_HOME/webapps/solr/WEB-INF/lib目录下

3.修改/solr_home/collection1/conf/中的schema.xml,在<type></types>中增加如下内容:

<fieldType name="text_ik" class="solr.TextField">
        <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
        <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

同时修改filed 使filed引用text_ik.这样才能使用IK分词器。

<field name="name" type="text_ik" indexed="true" stored="true"/>

4.测试:http://localhost:8080/solr/#/collection1/analysis 查看结果,说明配置成功。


1、下载(https://code.google.com/p/mmseg4j/downloads/list)并解压mmseg4j-1.9.1.zip,把dist下面的所有jar文件拷贝到你应用服务器下的solr/WEB-INF/lib中。(如果你的应用服务器下面没有solr,请参考《Tomcat中安装Solr》)。

有3个jar文件:mmseg4j-analysis-1.9.1.jar, mmseg4j-core-1.9.1.jar,mmseg4j-solr-1.9.1.jar。

 

顺便提下,如果是在mmseg4j-1.9.0前,则需要copy data目录到solr_home/solr中(与core平级),并改名为dic。进入到你想使用mmseg4j分词器的core中(此处以solr自带的collection1为例),用编辑器打开collection1/conf/schema.xml配置文件,添加如下代码:

Java代码   收藏代码
  1. <!-- mmseg4j分词器 -->  
  2.  <fieldType name="text_mmseg4j" class="solr.TextField" >  
  3.  <analyzer type="index">  
  4.  <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置-->  
  5.  </analyzer>  
  6.  <analyzer type="query">  
  7.  <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置-->  
  8.  </analyzer>  
  9.  </fieldType>  

 

 

2、在mmseg4j-1.9.0后,如本例的mmseg4j-1.9.1中,就 可以不用 dicPath 参数,可以使用 mmseg4j-core-1.9.0.jar 里的 words.dic ,在Schema.xml中加入如下配置

Java代码   收藏代码
  1. <!-- mmseg4j-->  
  2.     <fieldType name="text_mmseg4j_complex" class="solr.TextField" positionIncrementGap="100" >    
  3.         <analyzer>    
  4.             <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>    
  5.         </analyzer>    
  6.     </fieldType>    
  7.     <fieldType name="text_mmseg4j_maxword" class="solr.TextField" positionIncrementGap="100" >    
  8.         <analyzer>    
  9.             <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>    
  10.         </analyzer>    
  11.     </fieldType>    
  12.     <fieldType name="text_mmseg4j_simple" class="solr.TextField" positionIncrementGap="100" >    
  13.         <analyzer>    
  14.           <!--  
  15.             <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>   
  16.             -->  
  17.             <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="dic"/>       
  18.         </analyzer>    
  19.     </fieldType>  
  20.     <!-- mmseg4j-->  

 

3、引用mmseg4j分词器

只需要在该schema.xml中加入如下配置便可引用对应的mmseg4j分词器

 

Java代码   收藏代码
  1. <field name="mmseg4j_complex_name" type="text_mmseg4j_complex" indexed="true" stored="true"/>  
  2.    <field name="mmseg4j_maxword_name" type="text_mmseg4j_maxword" indexed="true" stored="true"/>  
  3.    <field name="mmseg4j_simple_name" type="text_mmseg4j_simple" indexed="true" stored="true"/>  

 

通过以上步骤就可以成功配置mmseg4j分词器到solr中了。

 

然后就可以打开Solr Admin的Page进行分词分析了。但当输入中文(华南理工大学)并点击“Analyse Values”进行分析时,会发现如下的错误: TokenStream contract violation: reset()/close() call missing, reset() called multiple times, or subclass does not call super.reset(). Please see Javadocs of TokenStream class for more information about the correct consuming workflow.



该原因是源码的一个bug引起的,需要修改上面下载的mmseg4j-analysis-1.9.1.zip解压后的mmseg4j-analysis目录下的类:MMSegTokenizer.java,修改reset()方法并加上下面注释中的这一句“ super.reset(); 

Java代码   收藏代码
  1. public void reset() throws IOException {  
  2.         //lucene 4.0  
  3.         //org.apache.lucene.analysis.Tokenizer.setReader(Reader)  
  4.         //setReader 自动被调用, input 自动被设置。  
  5.         super.reset();   //加这一句 
  6.         mmSeg.reset(input);  
  7.     }  

修改后运行mvn clean package -DskipTests进行打包得到最新的mmseg4j-analysis-1.9.1.jar 并替换Tomcat下的solr下的WEB-INF/lib下的mmseg4j-analysis-1.9.1.jar。

重新启动Tomcat并访问Solr Admin Page,并在“Analysis”中输入中文进行分析,可以看到已经成功的进行分析。



 

这样这个Bug就解决了。

 

另外,mmseg4j中文分词和庖丁中文分词的对比效果可以参照下面的结果,从结果可以看出,mmseg4j比起庖丁中文分词来说,是更好的选择。

paoding 几乎把所有的子词都拆出来,有时候还有最长的词,还没搞懂“华南理工大学”会分出“大”;mmseg4j 的 maxword 是在 complex分词后的结果再把子词都拆出来。

如“化装和服装” mmseg4j 的 complex是可以较好的分出来(“化装 | 和 | 服装”),而 paoding 少了字频的信息,比较难到这事。mmseg4j complex 也有个缺点:“都是先从容易的做起” 不能把“容易”分出来,这是因为 mmseg 算法是用 3 个chunk的原因,我认为把整句的 chunk (还是仅仅3个chunk)来处理的话,分词效果要好),当然要更多的开销,选3个可能是效果与性能平衡吧。

mmseg4j 没有加任何 stopword,这东西留给使用者自己加,因为我不认为加 stopword 是好的方法。如音乐搜索,给加上 the,this……,还能找到歌曲?

当然分词效果还与词库有关,sogou 的词库是统计得出,有些高频的单字组合也成了词,如“我们的”。如果还要提高 mmseg4j 的分词效果,还要在整理下词库。

 

mmseg4j中的词库:(强制使用 UTF-8):

  • data/chars.dic 是单字与语料中的频率,一般不用改动,1.5版本中已经加到mmseg4j的jar里了,我们不需要关心它,当然你在词库目录放这个文件可以覆盖它。
  • data/units.dic 是单字的单位,默认读jar包里的,你也可以自定义覆盖它,这个功能是试行,如果不喜欢它,可以用空的units.dic文件(放到你的词库目录下)覆盖它。
  • data/words.dic 是词库文件,一行一词,当然你也可以使用自己的,1.5版本使用 sogou 词库,1.0的版本是用 rmmseg 自带的词库。
  • data/wordsxxx.dic 1.6版支持多个词库文件,data 目录(或你定义的目录)下读到"words"前缀且".dic"为后缀的文件。如:data/words-my.dic。
  • 由于 utf-8 文件有带与不带 BOM 之分,建议词库第一行为空行或为无 BOM 格式的 utf-8 文件。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值