向量数据库FAISS/Chromadb/ES/milvus简单概述

ASS-ASH

已于 2024-05-27 13:02:00 修改

阅读量3.6k

点赞数 31

分类专栏：大语言模型文章标签： faiss elasticsearch milvus 向量数据库 Chromadb

于 2024-05-27 13:01:17 首次发布

本文链接：https://blog.csdn.net/qq_38563206/article/details/139232619

版权

大语言模型专栏收录该内容

16 篇文章

订阅专栏

FAISS

FAISS（Facebook AI Similarity Search）是一种高性能的向量相似性搜索库，用于在大规模向量数据集中快速搜索最相似的向量。它是由Facebook AI Research开发的，旨在解决大规模向量搜索的问题，广泛应用于各种领域，如图像搜索、文本搜索、推荐系统等。

FAISS的主要特点和优势如下：

高效的相似性搜索：FAISS使用了一系列高效的算法和数据结构，如倒排索引、局部敏感哈希（LSH）等，以实现快速的相似性搜索。它能够在大规模数据集中高效地找到与查询向量最相似的向量。
支持多种相似性度量：FAISS支持多种常见的相似性度量，包括欧氏距离、内积和余弦相似度等。这使得它适用于各种不同的应用场景。
可扩展性：FAISS支持在多个CPU或GPU上进行并行计算，以加速搜索过程。它还提供了一些优化技术，如分布式索引和量化压缩等，以便在处理大规模数据集时保持高性能。
易于使用的API：FAISS提供了简单易用的API，使得用户可以方便地构建和管理向量数据库。它还提供了一些辅助函数和工具，如索引训练器和评估器等，以帮助用户更好地使用和优化FAISS。

Chromadb

Chromadb是一种用于管理和查询基因组数据的数据库系统。它专门设计用于存储和分析大规模的染色体亚结构数据，如染色体亚带、染色体亚区和染色体亚片段。Chromadb提供了高效的数据存储和检索功能，使研究人员能够快速访问和分析基因组数据。

Chromadb的主要特点包括：

高效存储：Chromadb使用了一种优化的数据结构和索引技术，可以高效地存储大规模的基因组数据。它能够处理数百万个染色体亚结构的数据，并提供快速的数据访问速度。
强大的查询功能：Chromadb支持灵活的查询语言，可以根据不同的查询条件进行数据检索。用户可以根据染色体位置、基因型、表达水平等多个维度进行查询，并获得准确的结果。
可扩展性：Chromadb具有良好的可扩展性，可以处理不断增长的基因组数据。它支持数据的分区和分片存储，可以在需要时进行水平扩展，以满足不同规模的数据需求。
数据安全性：Chromadb提供了数据加密和访问控制等安全机制，保护用户的数据免受未授权访问和恶意攻击。

ES

Elasticsearch 是一个分布式、高扩展、高实时的搜索与数据分析引擎。它能很方便的使大量数据具有搜索、分析和探索的能力。充分利用Elasticsearch的水平伸缩性，能使数据在生产环境变得更有价值。Elasticsearch 的实现原理主要分为以下几个步骤，首先用户将数据提交到Elasticsearch 数据库中，再通过分词控制器去将对应的语句分词，将其权重和分词结果一并存入数据，当用户搜索数据时候，再根据权重将结果排名，打分，再将返回结果呈现给用户。

Elasticsearch是与名为Logstash的数据收集和日志解析引擎以及名为Kibana的分析和可视化平台一起开发的。这三个产品被设计成一个集成解决方案，称为“Elastic Stack”（以前称为“ELK stack”）。

Elasticsearch可以用于搜索各种文档。它提供可扩展的搜索，具有接近实时的搜索，并支持多租户。Elasticsearch是分布式的，这意味着索引可以被分成分片，每个分片可以有0个或多个副本。每个节点托管一个或多个分片，并充当协调器将操作委托给正确的分片。再平衡和路由是自动完成的。相关数据通常存储在同一个索引中，该索引由一个或多个主分片和零个或多个复制分片组成。一旦创建了索引，就不能更改主分片的数量。

Elasticsearch使用Lucene，并试图通过JSON和Java API提供其所有特性。它支持facetting和percolating，如果新文档与注册查询匹配，这对于通知非常有用。另一个特性称为“网关”，处理索引的长期持久性；例如，在服务器崩溃的情况下，可以从网关恢复索引。Elasticsearch支持实时GET请求，适合作为NoSQL 数据存储，但缺少分布式事务。