solr（二）：Solr配置中文分词器IKAnalyzer2012FF_u1

最新推荐文章于 2021-02-16 00:19:50 发布

RayBreslin

最新推荐文章于 2021-02-16 00:19:50 发布

阅读量506

点赞数

分类专栏： solr 文章标签： solr 中文分词器 IKAnalyzer2012FF_u1

本文链接：https://blog.csdn.net/u010886217/article/details/89598795

版权

solr 专栏收录该内容

18 篇文章 1 订阅

订阅专栏

一、目的

通过使用比较高效的IKAnalyzer2012FF_u1分词器对中文内容进行检索分词，利于最终的全文检索。

二、环境

1.CentOS6.4

2.CDH5.7.0

3.solr-4.10.3-cdh5.7.0

三、实现步骤

1.下载ik分词器IKAnalyzer2012FF_u1

https://download.csdn.net/download/u010886217/11147669

2.把IKAnalyzer2012FF_u1.jar添加到tomcat解压缩后的solr/WEB-INF/lib目录下

/opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/lib/IKAnalyzer2012FF_u1.jar

3.复制IKAnalyzer的配置文件和自定义词典和停用词词典（ext.dic、IKAnalyzer.cfg.xml、stopword.dic三个文件），拷贝到solr的classpath下，也就是在/opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/classes目录下。如果没有classes，则新建classes目录：

cd /opt/modules/tomcat-8.5.12/webapps/solr/WEB-INF/classes
# ls
IKAnalyzer.cfg.xml  log4j.properties  stopword.dic

4.在schema.xml中添加一个自定义域类型fieldType，从而使用中文分析器。

<!-- IKAnalyzer-->
<fieldType name="text_ik" class="solr.TextField">
  <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

5.定义域field，使用刚刚定义的域类型text_ik，指定field的类型fieldtype属性为text_ik

<!--IKAnalyzer Field-->
<field name="title_ik" type="text_ik" indexed="true" stored="true" />
<field name="content_ik" type="text_ik" indexed="true" stored="false" multiValued="true"/>

6.重启tomcat

cd /opt/modules/tomcat-8.5.12
bin/shutdown.sh
bin/startup.sh

四、校验

1.打开solr

http://hadoop01:9999/solr/#/collection1

2.选择刚刚定义的content_ik分词器域

3.选择《背影》经典作为检验

我说道：“爸爸，你走吧。”他往车外看了看说：“我买几个橘子去。你就在此地，不要走动。”我看那边月台的栅栏外有几个卖东西的等着顾客。走到那边月台，须穿过铁道，须跳下去又爬上去。父亲是一个胖子，走过去自然要费事些。

分词效果非常好

RayBreslin

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
solr（二）：Solr配置中文分词器IKAnalyzer2012FF_u1

一、目的通过使用比较高效的IKAnalyzer2012FF_u1分词器对中文内容进行检索分词，利于最终的全文检索。二、环境1.CentOS6.42.CDH5.7.03.solr-4.10.3-cdh5.7.0三、实现步骤1.下载ik分词器IKAnalyzer2012FF_u1https://download.csdn.net/download/u010886...
复制链接

扫一扫