ElasticSearch学习篇11_ANNS之基于图的NSW、HNSW算法(1)

2401_84181986

于 2024-04-27 00:49:49 发布

阅读量939

点赞数 27

文章标签： elasticsearch 学习算法

本文链接：https://blog.csdn.net/2401_84181986/article/details/138235051

版权

2、ScaNN (Scalable Nearest Neighbors) 开发者: Google 特点: ScaNN是一种用于向量相似性搜索的库，它通过优化量化和树搜索的结合来提高搜索效率和准确性。ScaNN旨在提供高效的搜索能力，特别是在处理超大规模数据集时。应用场景: 大规模图像检索、文本相似性搜索等。ScaNN（Scalable Nearest Neighbors）是一种用于高效近邻搜索的算法。它的原理基于两个关键思想：分层索引和候选筛选。

首先，ScaNN使用分层索引来组织数据。它将数据集划分为多个层级，每个层级都有一个索引结构。这些索引结构可以是传统的索引方法，如KD-Tree或LSH（Locality Sensitive Hashing），也可以是近似索引方法，如HNSW（Hierarchical Navigable Small World）。通过使用分层索引，ScaNN可以将搜索空间分解为多个子空间，从而减少搜索的复杂度。
其次，ScaNN使用候选筛选来加速搜索过程。在搜索时，ScaNN首先使用索引结构找到一组候选近邻。然后，它使用一种快速的候选筛选方法，如乘积量化（Product Quantization）或局部敏感哈希（Locality Sensitive Hashing），来进一步缩小候选集。最后，ScaNN对缩小后的候选集进行精确的距离计算，以找到最近的邻居。

3、Faiss (Facebook AI Similarity Search) 开发者: Facebook 特点: Faiss是一个高效的相似性搜索库，专注于密集向量的快速检索和聚类。Faiss使用了先进的向量量化技术，能够支持在大规模数据集上进行高效的相似性搜索。应用场景: 图像检索、聚类分析、大规模机器学习等。Faiss的原理基于两个关键思想：索引结构和量化编码。

首先，Faiss使用索引结构来组织向量数据。它支持多种索引结构，包括平面索引（Flat Index）、倒排索引（IVF Index）、乘积量化索引（PQ Index）等。这些索引结构可以根据数据集的特点和需求进行选择。例如，倒排索引适用于高维数据集，乘积量化索引适用于低维数据集。通过使用索引结构，Faiss能够将搜索空间划分为多个子空间，从而加速相似度搜索。
其次，Faiss使用量化编码来减少向量的维度。它将高维向量映射到低维空间，以降低计算和存储的成本。Faiss支持多种量化编码方法，如乘积量化（Product Quantization）、向量量化（Vector Quantization）等。这些方法可以将向量划分为多个子向量，并对每个子向量进行编码。通过使用量化编码，Faiss能够在保持搜索质量的同时，显著减少计算和存储的开销。

4、HNSW (Hierarchical Navigable Small World) 特点: HNSW是一种基于图的近似最近邻搜索算法，通过构建一个分层的图结构来实现高效的搜索。HNSW能够在大规模数据集上实现快速且准确的近似最近邻搜索，具有较低的内存消耗和较快的查询速度。应用场景: 推荐系统、图像检索、文本搜索等。

5、QSG-NGT：该算法在当前业界最权威的ANN-Benchmarks中荣获第一。NGT是一种结合了图和树结构的算法，用于高效地进行最近邻搜索。它主要由两个组成部分构成：Neighbo

最低0.47元/天解锁文章

2401_84181986

关注

27
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
ElasticSearch学习篇11_ANNS之基于图的NSW、HNSW算法(1)

乘积量化（Product Quantization）简称 PQ。是和VLAD算法由法国INRIA实验室一同提出来的，为的是加快图像的检索速度，所以它是一种检索算法。现有的检索算法存在一些弊端，如 kd树不适合维度高的数据，哈希（LSH）适用中小数据集，而乘积量化这类方法，内存占用更小、数据动态增删更方便。基本思路就是聚类、量化压缩向量维度，提升检索速率。
复制链接

扫一扫