【solr】——配置中文分析器

开篇


        本篇博客简单的学习一下solr的使用,使用单机版。Solr安装成功后并且启动后可以通过ip:port /solr/进行访问。

        Document即文档是solr用来搜索的数据源,这些数据源是我们上传到solr的。不同的应用程序数据库可以通过配置schema.xml来添加要导入到solr中的字段。

 

正文


第一部分:中文分词器

        正式开始介绍如何使用之前先配置一下中文分析器,要使用的分析器是IKAnalyzer,它是一款结合了词典和文法分析算法的中文分词组件,基于字符串匹配,支持用户词典扩展定义,支持细粒度和智能切分,先看如何配置然后看实际效果。

 

        第一步:把IKAnalyzer依赖的jar包添加到solr工程中。


        第二步:把分析器使用的扩展词典添加到classpath中。

        第三步:在Schema.xml中需要自定义一个FieldType,可以在FieldType中指定中文分析器。Schema.xml路径入下:

 

        该配置文件末尾添加如下配置:

<fieldType name="text_ik" class="solr.TextField">
  <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

         启动tomcat,通过浏览器访问solr,输入内容测试中文分词器,效果图如下:

 

第二部分:数据导入简介

        在使用之前首先要向solr中导入测试的数据文件。有很多种方式将数据导入到Solr中:

                1、通过Data Import Handler(DIH)从数据库中导入数据

                2、加载CSV文件(文件中的数据用逗号分隔),csv文件可以是Excel和Mysql导出的。

                3、Post json文档

                4、通过Solr Cell索引二进制文档,如word或者pdf。

                5、通过java或者solr支持的其他语言,用程序创建并导入到solr中。

 

小结


        本篇配置好了solr的中文分词器,下篇博客结合程序使用solrj向solr中导入数据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 9
    评论
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值