Lucene优化

解决大量磁盘IO

  • config.setMaxBufferedDocs(100000); 控制写入一个新的segment前内存中保存的document的
    数目,设置较大的数目可以加快建索引速度。
    数值越大索引速度越快, 但是会消耗更多的内存
  • indexWriter.forceMerge(文档数量); 设置N个文档合并为一个段
    数值越大索引速度越快, 搜索速度越慢; 值越小索引速度越慢, 搜索速度越快
    更高的值意味着索引期间更低的段合并开销,但同时也意味着更慢的搜索速度,因为此时的索引通
    常会包含更多的段。如果该值设置的过高,能获得更高的索引性能。但若在最后进行索引优化,那
    么较低的值会带来更快的搜索速度,因为在索引操作期间程序会利用并发机制完成段合并操作。故
    建议对程序分别进行高低多种值的测试,利用计算机的实际性能来告诉你最优值。

选择合适的分词器

不同的分词器分词效果不同, 所用时间也不同
虽然StandardAnalyzer切分词速度快过IKAnalyzer, 但是由于StandardAnalyzer对中文支持不好, 所
以为了追求好的分词效果, 为了追求查询时的准确率, 也只能用IKAnalyzer分词器, IKAnalyzer支持停
用词典和扩展词典, 可以通过调整两个词典中的内容, 来提升查询匹配的精度

选择合适的位置存放索引库

在这里插入图片描述

Directory directory = MMapDirectory.open(Paths.get("xxx"));

搜索api的选择

  1. 尽量使用TermQuery代替QueryParser
  2. 尽量避免大范围的日期查询
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
lucene 是一种开源的全文搜索引擎库,虽然它已经具备了很好的性能,但在处理海量数据时,还需要进行一些性能优化的工作。以下是一些优化技巧: 1. 建立索引:建立合适的索引结构对于搜索性能至关重要。可以通过调整分词器、字段类型等参数来优化索引的构建过程。 2. 使用缓存:Lucene 提供了一些缓存机制,可以缓存频繁使用的结果,例如过滤器缓存、排序缓存等。合理利用缓存可以减少磁盘 I/O 操作,提升搜索效率。 3. 硬件优化:在硬件方面,可以使用更高性能的硬盘、增加内存等方式来提高 Lucene 的性能。特别是加大文件系统缓存可以加快索引和搜索的速度。 4. 查询性能优化:可以通过使用合适的搜索技术(如布尔查询、短语查询等)、调整查询权重、优化查询语句等方式来提高搜索效率。 5. 批量操作:对于大规模数据的操作,可以尽量使用批量操作方式,减少频繁的单条数据操作,以提高效率。比如通过批量提交文档,批量删除文档等方式。 6. 关键词匹配优化:对于一些特定的场景,可以通过使用同义词字典、拼写纠错、中文分词等方式来优化关键词的匹配,提高搜索的准确性。 7. 数据分片:对于大规模数据,可以将索引数据分片存储在多台机器上,通过分布式的方式来提高搜索的并发能力和吞吐量。 总的来说,lucene 性能优化涉及多个方面,包括索引构建、查询优化、硬件优化、批量操作等,需要根据具体应用场景和需求来选择合适的优化策略。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值