solr6.4+拼音分词与ik中文分词

整理一下前端时间用的solr结合拼音分词与ik中文分词。solr比lucene封装较好,可以直接在配置文件中配置这些分词就可以直接用。
主要工具包:
pinyinAnalyzer.jar  
ik-analyzer-solr6.x.jar  
pinyin4j-2.5.0.jar  
  
IKAnalyzer.cfg.xml  
mydict.dic  
stopword.dic  
上面包的 下载地址 。其中ik的分词包是修改过重新打包已适用于6.0以上的solr版本的,将三个jar包放在solr项目的WEB-INF/lib文件夹下,IKAnalyzer.cfg.xml,mydict.dic,stopword.dic三个文件放在WEB-INF/classes文件夹下,没有classes文件夹就新建一个,其中IKAnalyzer.cfg.xml为配置分词包的配置文件,mydict.dic和stopword.dic问中文分词包和停词包。 在managed-schema配置文件中直接配置分词:
<!-- 中文与拼音分词-->  
    <fieldType name="text_pinyin" class="solr.TextField" positionIncrementGap="0">      
        <analyzer type="index">      
            <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false"/>      
            <filter class="utn.index.mmseg.solr.PinyinTokenFilterFactory"  minTermLength="2" pinyinAll="true"  outChinese="true"/>     
        </analyzer>      
        <analyzer type="query">           
            <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" userSmart="true"/>      
            <filter class="utn.index.mmseg.solr.PinyinTokenFilterFactory"  minTermLength="2" pinyinAll="true"  outChinese="true"/>    
        </analyzer>      
    </fieldType>  
在需要分词的字段设置type=“text_pinyin”就可以实现分词。
<field name="name" type="text_pinyin" indexed="true" stored="true" />
在solr admin页面也可以查看分词效果:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值