使用Faiss实现高效的向量相似度搜索和聚类

最新推荐文章于 2024-09-22 19:45:20 发布

nseejrukjhad

最新推荐文章于 2024-09-22 19:45:20 发布

阅读量504

点赞数 10

文章标签： faiss 聚类数据挖掘 python

本文链接：https://blog.csdn.net/nseejrukjhad/article/details/142258745

版权

使用Faiss实现高效的向量相似度搜索和聚类

引言

在人工智能和机器学习领域，高效处理大规模向量数据集是一个常见的挑战。Facebook AI Similarity Search (Faiss) 是一个专门用于解决这个问题的开源库。本文将深入探讨Faiss的异步使用方法，以及如何将其与LangChain框架结合使用，实现高效的向量相似度搜索和聚类。

Faiss简介

Faiss是一个用于高效相似度搜索和密集向量聚类的库。它包含了可以在任意大小的向量集合中搜索的算法，甚至可以处理不适合内存的大规模数据集。此外，Faiss还提供了用于评估和参数调优的支持代码。

安装和环境设置

首先，我们需要安装必要的依赖：

pip install --upgrade --quiet faiss-gpu  # 对于支持CUDA 7.5+的GPU
# 或者
pip install --upgrade --quiet faiss-cpu  # 对于CPU安装
pip install --upgrade --quiet langchain-community

接下来，我们需要设置OpenAI API密钥：

import os
import getpass

os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

# 如果需要初始化FAISS而不使用AVX2优化，请取消注释以下行
# os.environ['FAISS_NO_AVX2'] = '1'

使用Faiss和LangChain

1. 准备数据

首先，我们需要加载和处理文本数据：

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

loader = TextLoader("path/to/your/document.txt")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings()

2. 创建Faiss索引

使用异步方法创建Faiss索引：

db = await FAISS.afrom_documents(docs, embeddings)

3. 执行相似度搜索

query = "Your search query here"
docs = await db.asimilarity_search(query)

print(docs[0].page_content)

4. 带分数的相似度搜索

Faiss提供了一个特殊的方法similarity_search_with_score，它不仅返回文档，还返回查询与文档的距离分数：

docs_and_scores = await db.asimilarity_search_with_score(query)
print(docs_and_scores[0])

5. 保存和加载索引

Faiss索引可以保存到本地并在需要时加载，这样可以避免每次使用时都重新创建索引：

# 保存索引
db.save_local("faiss_index")

# 加载索引
new_db = FAISS.load_local("faiss_index", embeddings, asynchronous=True)

# 使用加载的索引进

nseejrukjhad

关注

10
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫