关于我对搜索引擎的一些感悟

只因在人海中多看了你一眼

于 2024-08-16 17:37:48 发布

阅读量230

点赞数 10

文章标签：搜索引擎

本文链接：https://blog.csdn.net/m0_46221544/article/details/141263184

版权

一、工作流程

ES特性：

分布式架构：ES是分布式的，可以水平扩展以处理大规模数据集。它使用分片（Sharding）和副本（Replication）机制来提高数据的可用性和容错性。
实时性：ES支持近实时（NRT）搜索，即数据在索引后几乎可以立即被搜索到。
丰富的API：ES提供了丰富的RESTful API，支持复杂的查询、聚合、排序和过滤操作。可扩展性：ES支持插件和自定义扩展，可以根据需要添加新的功能或优化现有功能。
查询性能与检索效率: 在实时建立索引时不会产生IO阻塞，查询性能较高。而且，随着数据量的增加，ES的检索效率基本保持不变，表现出更好的稳定性。
管理方式: 自身带有分布式系统管理功能，无需依赖外部系统，简化了部署和管理过程。
支持的数据格式: 主要支持JSON文件格式，虽然格式较为单一，但JSON的普及性和灵活性也使其能够很好地满足大多数应用场景的需求。
功能与扩展性: 更注重于核心功能，高级功能多由第三方插件提供。这种设计使得ES更加轻量级和易于上手，同时也为用户提供了更多的选择和灵活性。
应用场景：ES的实时性查询能力和高扩展性使其更适用于新兴的实时搜索应用，如日志分析、实时监控、电商网站的商品搜索等。

Solr特性：

索引优化：
- 选择合适的字段进行索引：避免对所有字段进行索引，以减少索引大小和查询时间。
- 优化分词器和过滤器：根据数据特性和查询需求定制分词策略，以提高搜索的准确性和效率。
- 使用映射（Mapping）优化：通过映射定义字段的类型、分词器等属性，以优化索引结构和查询性能。
查询优化：
- 优化查询语句：避免复杂的嵌套查询和不必要的计算，使用合适的查询类型（如match、term等）来匹配数据。
- 利用缓存：利用ES的查询缓存功能来减少重复查询的响应时间。
- 分页优化：使用深度分页（如游标查询）来避免在高偏移量下的性能问题。
性能调优：
- 集群配置：合理配置ES集群的硬件资源（如CPU、内存、存储）和网络环境。
- 分片与副本：根据数据量和查询需求调整分片数和副本数，以平衡数据处理的并发性和容错性。
- 监控与日志：定期监控ES集群的性能指标，并查看日志以发现潜在的性能瓶颈。
相关性调优：
- 调整评分算法：通过调整ES的评分算法参数（如boosting、function score等）来优化搜索结果的相关性。
  自定义评分函数：利用ES的函数评分功能，根据业务需求自定义评分逻辑，以更准确地反映文档与查询的相关性。