关于solr的一些总结和问题

最新推荐文章于 2024-04-06 09:48:21 发布

坏男坏男

最新推荐文章于 2024-04-06 09:48:21 发布

阅读量3.9k

点赞数 2

分类专栏：项目相关 solr-4 文章标签： solr 工作

本文链接：https://blog.csdn.net/huainanhuainan/article/details/78947983

版权

项目相关同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

solr-4

1 篇文章 0 订阅

订阅专栏

关于solr的一些总结和问题

今天是2018年的第一天，目前已经工作一年了，项目也在不断的“升级”，写的东西越来越多，偶尔总结一下，也算是一种学习吧。休息了几天，今天把前段时间关于Solr的一些问题总结一下。

在之前自己搭过单机版的solr，网上教程很多，随便百度一个就可以搭的很好，在实际运用中，我使用了Solr4.10.3（比较老，但是目前够用）。

使用时的问题

solr4.10.3中文分词，不支持智能中文分词
利用solrJ生成索引时多次报错
利用solrJ生成索引时报错对应的结果
solrCloud搭建时与Zookeeper的搭配
利用url命令创建solrCloud的shards及replacations时，实际与想法不同
后续问题持续更新。。。

对问题的处理及记录

solr4.10.3目前不支持只能中文分词（smar_ik）,但是网上也有针对4.*的解决方案。目前是，修改了IK的jar（还没有看修改了哪），再修改schema.xml（经测试，可以进行智能分词，即分词的粒度相对于之前的text_ik比较大）。后续有需要，我会尝试研究修改的IK.jar。

修改之前：

<fieldType name="text_ik" class="solr.TextField">
	<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
	<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

修改之后：

<fieldType name="text_ik" class="solr.TextField"  
    positionIncrementGap="100">  
    <analyzer type="index">  
        <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory" isMaxWordLength="false" />  
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopword.dic" enablePositionIncrements="true" />  
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />  
            <filter class="solr.LowerCaseFilterFactory" />  
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0"  splitOnCaseChange="1"/>     
    </analyzer>  
    <analyzer type="query">  
        <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory" isMaxWordLength="true" />  
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopword.dic" enablePositionIncrements="true" />  
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />  
        <filter class="solr.LowerCaseFilterFactory" />  
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0"  splitOnCaseChange="1"/>     
    </analyzer>  
</fieldType>  
<!-- 引用智能分词 -->  
<fieldType name="smart_ik" class="solr.TextField">  
    <analyzer >  
        <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory" isMaxWordLength="true" /><!-- 智能分词 -->  
    </analyzer>  
</fieldType>  
<!-- 引用最细粒 -->  
<fieldType name="tiny_ik" class="solr.TextField">  
    <analyzer >  
        <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzerSolrFactory" isMaxWordLength="false" /><!-- 最细粒分词 -->  
    </analyzer>  
</fieldType>  
2. 生成索引时，可以利用xml的形式，配置dataImport.xml来生成索引，由于1.数据量不是很大，2.而且数据的格式不是很规范（在数据的规范上有一定的问题）3.之前利用dataImport需要多次刷新。所以此时和java建立联系，利用SolrJ来生成索引。生成索引之前需要配置，schema.xml将需要的字段都写在对应的位置。
例：

``` 配置完成后：配置时required这个属性要注意，是否是唯一标识符，如果写了是true，则在数据中必须不为空，否则会报错比如导100条数据，如果第50条报错，那么其余的99条会生成索引，只有第50条不会生成索引（此处应该注意，避免重复生成索引） 1. 由于导入的数据来自不同的表，所以不能使用id来作为唯一标识（是否是自增，我还没有测试，稍后更新），使用uuid来替代int类型。此时在修改（即添加操作，如果没有则添加，有则修改，修改时对之前旧的需要保留的数据进行备份，否则以前的旧的属性会被覆盖，所以如果修改一个属性，需要把另外几个属性都复制过来）或删除时，需找到对应的uuid来进行操作在删除时： ``` UpdateResponse response = cloudSolrServer.deleteById("100002"); System.out.println(response.getQTime()); ``` 可能是版本不对应，response.getQTime()会报错，删掉就可以正常进行删除操作。 4. solr单机版多个core比较不便于操作，如果使用solrClou则方便的多，而且速度有明显的提升。我使用了，3个zookeeper和3个tomcat放SolrCloud，当时没有多想，有这么多服务器，就这么搭配，后续如果需要再研究下性能问题，再来扩充。 5. 利用url命令创建solrCloud的shards及replacations时

http://localhost:8080/solr/admin/collections?action=CREATE&name=credit2&numShards=1&replicationFactor=1&createNodeSet=192.168.10.63:8080_solr,192.168.10.64:8080_solr,192.168.65:8080_solr

先执行一次，再执行一次，才会生成，一个collections，三个shards，三个都是leader，没有replaction,虽然可以使用，但是后续性能可能会有问题，如果需要再进行学习探索。