Solr中文分词配置(IKAnalyzer)

最新推荐文章于 2024-03-19 23:12:19 发布

liuweitoo

最新推荐文章于 2024-03-19 23:12:19 发布

阅读量4.2k

点赞数

分类专栏： Solr 搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuweitoo/article/details/8133532

版权

搜索引擎同时被 2 个专栏收录

24 篇文章 0 订阅

订阅专栏

17 篇文章 0 订阅

订阅专栏

本文介绍以IKAnalyzer为主的Solr中文分词的配置。

1. 关于IKAnalyzer

IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。

2. 下载

http://code.google.com/p/ik-analyzer/

3. 配置

3.1. schema.xml配置

某核下中 conf/schema.xml </type>前添加

<fieldType name="text_ik" class="solr.TextField" >
  <analyzer type="index">
   <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" useSmart="true"/>
  </analyzer>
  <analyzer type="query">
   <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" useSmart="true"/>
  </analyzer>
</fieldType>

3.2. 文件复制

将相关文件复制到tomcat home下的 .\webapps\solr

3.2.1. IKAnalyzer2012.jar 复制到 WEB-INF\lib

3.2.2. IKAnalyzer.cfg.xml 与 stopword.dic 复制到 WEB-INF\class

4. 进入分析页面确认是否配置成功

因我是配置在多核的名为liuweitoo的核中，查看地址为： http://localhost:9090/solr/liuweitoo/admin/analysis.jsp

在该页面输入相关内容后，进行分析，如为下图，则中文分词配置成功。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Solr中文分词配置(IKAnalyzer)

本文介绍以IKAnalyzer为主的Solr中文分词的配置。 1. 关于IKAnalyzerIK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。