一看就懂系列之亿万级项目都在用的sphinx

最新推荐文章于 2024-06-27 18:30:24 发布

咖啡色的羊驼

最新推荐文章于 2024-06-27 18:30:24 发布

阅读量3.3k

点赞数 2

分类专栏： sphinx 文章标签： sphinx 缓存搜索

本文链接：https://blog.csdn.net/u011957758/article/details/51052650

版权

本文介绍了如何在数据和用户都是亿万级别的场景下设计搜索思路，并详细讲解了Sphinx搜索引擎的简介、特性、安装运行过程以及在亿级项目中的实际应用场景，如全量索引、增量索引、实时索引和分布式索引。

摘要由CSDN通过智能技术生成

前言

年轻的时候总以为很多app或者网站的搜索功能是基于cache+sql的模式进行查询的，也未曾想过数据是亿万级别，用户也是亿万级别时候，cache和sql的入门级模式是否能应对。答案是肯定不能hold住的，现在年长了些，随着项目的发展有幸接触到相关解决方案，所以想记下来，备忘。
那么老规则本文主要解决三个问题：
1.如何解决与设计数据和用户都是亿万级别的搜索的思路。
2.sphinx的简介与特性
3.sphinx的安装与运行
4.sphinx在亿级项目中的使用场景

正文开始

1.如何解决与设计数据和用户都是亿万级别的搜索的思路。

首先当数据量和用户基数很大时候，意味着三个问题需要解决：
1.查询的次数会很多并且需要快速返回；
2.查询并发数会很高，如何正确的分流分压；
3.数据的增长会很快，这部分增长的数据如何有效的处理才能实时搜索到；

mysql自身的全文索引搜索慢，定制化程度低，自然无法满足解决上述问题，那么就需要更高性能的自定义的搜索，sphinx出现了，它提供了针对上述三大问题都有相应的解决方案。sphinx是以以俄国全文检索引擎，提供了高速、低空间占用、高结果相关度的全文搜索功能。主要方式是提供符合条件的数据源给sphinx，sphinx生成索引，依赖索引对外提供服务。更重要的是sphinx内置mysql数据库数据源的支持，使用起来非常简单，和使用mysql很大程度相似。

2.sphinx的简介与特性

我的理解中的sphinx

1.sphinx的机制两部分构成：生成索引＋search索引
2.sphinx索引类型：普通索引＋rt实时索引＋分布式索引

特性(最新版sphinx性能某些方面更高于下面描述)

1.高速的建立索引(在当代CPU上，峰值性能可达到10 MB/秒);
2.高性能的搜索(在2 – 4GB 的文本数据上，平均每次检索响应时间小于0.1秒)；
3.可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可
处理100 M 文档);
4.提供了优秀的相关度算法，基于短语相似度和统计（BM25）的复合Ranking方法;
5.支持分布式搜索;
6.可作为MySQL的存储引擎提供搜索服务;
7.支持布尔、短语、词语相似度等多种检索模式;
8.文档支持多个全文检索字段(最大不超过32个);
9.文档支持多个额外的属性信息(例如：分组信息，时间戳等);
10.支持单一字节编码和UTF-8编码;
11.原生的MySQL支持(同时支持MyISAM 和InnoDB );
12.原生的PostgreSQL 支持.

反正就是很牛逼就是了。