USearch: 一款高效的向量搜索引擎替代方案

最新推荐文章于 2025-06-06 11:28:47 发布

jaioyfpo

最新推荐文章于 2025-06-06 11:28:47 发布

阅读量486

点赞数 5

文章标签： easyui 前端 javascript python

本文链接：https://blog.csdn.net/jaioyfpo/article/details/142414496

版权

引言

向量搜索引擎在现代机器学习和自然语言处理应用中扮演着至关重要的角色。虽然FAISS是业界公认的高性能标准，但它的复杂性和依赖性可能对某些项目构成挑战。USearch作为一款更小、更快的单文件向量搜索引擎，提供了与FAISS类似的基础功能，同时简化了设计并减少了依赖。本文将介绍如何使用USearch进行近似最近邻搜索，并探讨其使用中的常见问题与解决方案。

主要内容

USearch的优势

轻量化：USearch设计紧凑，占用空间小。
跨平台兼容：具备高兼容性，适合不同开发环境。
用户定义的度量：支持用户自定义的度量方式，灵活性强。

用法示例

为了展示USearch的实际应用，我们将使用langchain-community库中的工具，包括OpenAIEmbeddings。

%pip install --upgrade --quiet usearch langchain-community

环境设置

首先，我们需要获取OpenAI的API密钥进行嵌入操作：

import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

加载必要的模块：

from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import USearch
from langchain_openai import OpenAIEmbeddings
from langchain_text_splitters import CharacterTextSplitter

代码示例

以下是一个使用USearch进行文本相似度搜索的完整示例：

# 加载文本文件
loader = TextLoader("../../../extras/modules/state_of_the_union.txt")
documents = loader.load()
# 使用字符分割器进行文档分割
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 创建OpenAI嵌入
embeddings = OpenAIEmbeddings()

# 使用USearch构建向量数据库
db = USearch.from_documents(docs, embeddings)

# 执行相似度搜索
query = "What did the president say about Ketanji Brown Jackson"
docs = db.similarity_search(query)

print(docs[0].page_content)