Solr4.6.1配置与建立索引——搜索引擎学习（一）

最新推荐文章于 2024-06-25 10:33:00 发布

昕玫

最新推荐文章于 2024-06-25 10:33:00 发布

阅读量4.2k

点赞数

分类专栏：搜索引擎 Solr 文章标签：搜索引擎 Solr

本文链接：https://blog.csdn.net/hereiskxm/article/details/19770411

版权

搜索引擎同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

Solr

1 篇文章 0 订阅

订阅专栏

一、 solr简介

Solr是基于Lucene的全文搜索服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引；也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。
简而言之，Sorl是一个搜索引擎，我们可以发送文档给它，让它建立倒排索引（建立搜索源）；也可以发送查找请求，让它以某种形式（JSON,XML等）返回结果（文档列表）给你。

二、 Solr的配置
最近在本机配置了Solr4.6.1，主要参考了apache的API文档。
配置方法如下：

本机环境 win7 tomcat6.0 jdk6u27
1. 下载Solr
http://mirror.bit.edu.cn/apache/lucene/solr/4.6.1
2. 部署进tomcat
先将将solr-4.6.1\example\webapps下的solr.war拷到tomcat下的webapps中，并将solr-4.6.1\example\lib中的jar包补充到tomcat的lib中。
3. 引入Core
在webapps\solr\下新建conf文件夹，并把solr-4.6.1\example\multicore目录拷到conf下。
4. 编辑solr.xml
%TOMCAT_HOME%\conf\Catalina\localhost下新建solr.xml
内容如下：
<?xml version="1.0" encoding="UTF-8"?>

<Context docBase="${catalina.home}/webapps/solr.war" debug="0" crossContext="true" >

<Environment name="solr/home" type="java.lang.String" value="${catalina.home}/webapps/solr/conf/multicore" override="true" />
</Context>
5. 这时启动tomcat，应当可以正常访问solr。

三、配置分词算法

1. 下载你喜欢的分词器

我下载的是：jcseg-1.9.2-src-jar-dict，下载之前需了解它是否支持solr相应的版本

2. 解压并将目录下的 jcseg-core-1.9.2.jar, jcseg-solr-1.9.2.jar, jcseg.properties,lexicon/ 复制到Solr的WEB-INF/lib下。

3.在solr\conf\multicore\core0\conf中的schema.xml添加如下配置（参考jcseg的文档）：

<?xml version="1.0" ?>
<schema name="example core zero" version="1.1">
  <types>
   <fieldtype name="string"  class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
   <fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/>

   <!--kxm begin-->
   <fieldtype name="textComplex" class="solr.TextField">
        <analyzer>
            <tokenizer class="org.lionsoul.jcseg.solr.JcsegTokenizerFactory" mode="complex"/>
        </analyzer>
    </fieldtype>
    <fieldtype name="textSimple" class="solr.TextField">
        <analyzer>
            <tokenizer class="org.lionsoul.jcseg.solr.JcsegTokenizerFactory" mode="simple"/>
        </analyzer>
    </fieldtype>

    <!--kxm end-->
  </types>

 <fields>   
  <!-- general -->
  <field name="id"        type="string"   indexed="true"  stored="true"  multiValued="false" required="true"/>
  <field name="type"      type="string"   indexed="true"  stored="true"  multiValued="false" /> 
  <field name="name"      type="string"   indexed="true"  stored="true"  multiValued="false" /> 
  <field name="core0"     type="string"   indexed="true"  stored="true"  multiValued="false" /> 
  <field name="_version_" type="long"     indexed="true"  stored="true"/>

  <!--kxm begin-->
  <field name="simple" type="textSimple" indexed="true" stored="true" multiValued="true" />
  <field name="complex" type="textComplex" indexed="true" stored="true" multiValued="true" />
  <!--kxm end-->

</fields>

 <!-- field to use to determine and enforce document uniqueness. -->
 <uniqueKey>id</uniqueKey>

 <!-- field for the QueryParser to use when an explicit fieldname is absent -->
 <defaultSearchField>name</defaultSearchField>

 <!-- SolrQueryParser configuration: defaultOperator="AND|OR" -->
 <solrQueryParser defaultOperator="OR"/>
</schema>

4. 重启tomcat，此时不应报任何错误。

5. 测试分词效果

四、对数据库中的数据建立倒排索引

1. 启动本机的mysql数据库

我新建test数据库，并在其中新建test表，表有两个字段，ID与Val。ID表示文档编号，Val表示文档内容，这是一个最简单的数据源。

2. 在Solr中配置数据源

在\webapps\solr\conf\multicore\core0\conf\db-data-config.xml中作如下配置：

<dataConfig>
    <dataSource type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost:3306/test" user="root" password="XXXXXX" />
    <document name="messages">
        <entity name="message" transformer="ClobTransformer" query="select * from test1">
            <field column="ID" name="id" />
            <field column="Val" name="complex" />
        </entity>
    </document>
</dataConfig>

此处的complex应与schema中的field name相对应。

3. 重启tomcat，建索引：