solr学习笔记（一）：入门

最新推荐文章于 2022-06-10 16:30:43 发布

相国

最新推荐文章于 2022-06-10 16:30:43 发布

阅读量4.3k

点赞数

分类专栏：搜索开发文章标签： solr 入门

本文链接：https://blog.csdn.net/lgnlgn/article/details/8453487

版权

搜索开发专栏收录该内容

10 篇文章 0 订阅

订阅专栏

Solr是一个比较成熟和热门的搜索引擎解决方案，之前的博客也提到过。最近在学习搜索开发也查阅过solr的资料，相对elasticsearch来说资料更全，案例更多也更让人放心，我现在还没发做很细致的比较，但个人认为中小型搜索用solr可能会更合适，毕竟更成熟可靠一些。

介绍Solr的资料也有不少，比如书籍就有 Solr.3.Enterprise.Search.Server和Apache Solr 3.1 Cookbook。前者更适合完全搜索新手，如果你是对检索有一定了解，尤其是对lucene有了解的，我更推荐ApacheSolrRefGuide，这本书比较偏手册型，更适合开发者定位到问题。虽然目前solr已经到了4.0版本，不过很久旧版本的教程应该还是差不多可以对得上。

下面就列出一些我在学习过程中记录的一些要点：

1. 启动

1.1 jetty试用，通过-D指定其他属性

cd example

java -Dsolr.solr.home=/some/dir -jar start.jar， -D

1.2 tomcat

1) 拷贝solr.war到$TOMCAT_HOME/webapps

2) 拷贝solr实例需要的配置目录（example/solr）至$SOLR_HOME

3) 在$TOMCAT_HOME/conf/Catalina/localhost下创建个solr.xml, 内容为，注意路径要自己写，别直接贴我这个上去用

</Context>

4) 启动tomcat 启动solr项目

2. 配置， 配置是非常重要的部分，例子给出比较全的配置项，但需要好好理解

每个collection都有一般性配置solrconfig.xml 和表配置schema.xml

2.1 schema.xml

types: 定义字段类型、怎么分词等

例如<fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/>

以及： <fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">

<analyzer type="index">

<tokenizer class="solr.StandardTokenizerFactory"/>

<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />



<filter class="solr.LowerCaseFilterFactory"/>

</analyzer>

<analyzer type="query">

<tokenizer class="solr.StandardTokenizerFactory"/>

<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />

<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>

<filter class="solr.LowerCaseFilterFactory"/>

</analyzer>

</fieldType>

fields: 表字段

<field name="sku" type="text_en_splitting_tight" indexed="true" stored="true" omitNorms="true"/>

copyField: 用来标识字段不同的索引方式，或者多个字段联合索引

<copyField source="cat" dest="text"/>

2.2 solrconfig.xml ： collection核心配置

requestHandler：分发Http request到不同Handler执行，包括search和update两部分

UpdateRequestProcessorChain：定义一些列更新操作，之后在requestHandler的属性 <str name="update.chain">指定

highlighting: 高亮设定

主要参数：

searchComponent：提供搜索的核心功能，主要包括检索、高亮、分组等

queryResponseWriter：结果输出格式定义

2.3 solr.xml core admin配置

包括设置每个collection数据存放目录，admin路径; 通常可以在用户界面上操作并修改

必须保证至少有一个core，否则启动solr admin管理GUI会报错

3. 索引，索引其实就是为solr传入文档

默认支持XML JSON CSV格式，

4.0开始支持原子操作 add, set 和 inc，但如果文档指定id没有出现在索引里，会添加只有部分字段的文档，也就是upsert

可以去重（一般情况可能用不着）：updaterequestChain中需要增设

<updateRequestProcessorChain name="dedupe">
<processor
class="org.apache.solr.update.processor.SignatureUpdateProcessorFactory">
</processor>
<processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>