Solr - 中文分词器IK Analyzer的简介及配置

简介

IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。

作用: 有中文语义分析的效果, 对中文分词效果好.

 

配置

一、把IKAnalyzer2012FF_u1.jar 添加到 solr 工程的 lib 目录下,根据自己的安装目录来操作

①进入IKAnalyzer文件目录下:cd /usr/local/solr/IKAnalyzer/

②复制文件:cp IKAnalyzer2012FF_u1.jar /usr/local/solr/tomcat/webapps/solr/WEB-INF/lib/

二、创建WEB-INF/classes文件夹

①进入Tomca的WEB-INF文件夹下:cd /usr/local/solr/tomcat/webapps/solr/WEB-INF/

②创建classes文件夹:mkdir classes

三、把扩展词典、停用词词典、配置文件放到 solr 工程的 WEB-INF/classes 目录下

①进入IKAnalyzer文件目录下:cd /usr/local/solr/IKAnalyzer/

②复制配置文件:cp IKAnalyzer.cfg.xml /usr/local/solr/tomcat/webapps/solr/WEB-INF/classes

③复制停用词典:cp ext_stopword.dic /usr/local/solr/tomcat/webapps/solr/WEB-INF/classes

④修改停用词典名字:mv ext_stopword.dic stopword.dic

四、修改IKAnalyzer.cfg.xml配置文件,stopword.dic已经有了,而ext.dic还没有

①创建ext.dic:touch ext.dic

②修改扩展词字典和停止词字典:vim IKAnalyzer.cfg.xml 

五、解释停止词典和扩展词典

stopword.dic - 停止词典:切分词的时候, 凡是出现在停止词典中的词都会被过滤掉

ext.dic - 扩展词典:凡是专有名词都会放到这里, 如果自然语义中不是一个词, 放到这里后solr切分词的时候就会切分成一个词

六、配置分词器

1.修改 Solrhome 的 schema.xml 文件

①进入到conf文件夹下:cd /usr/local/solr/solrhome/collection1/conf

②修改 schema.xml ,在文件最后添加(注:需在</schema>标签内)

<fieldType name="text_ik" class="solr.TextField">
     <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

③自定义域名使用自己创建的分词器

<field name="content_ik" type="text_ik" indexed="true" stored="true"/>

2.关闭和重启Tomcat

cd /usr/local/solr/tomcat/bin/

./shutdown.sh

./startup.sh

3.测试

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值