探索Voyage AI的嵌入式向量化模型：实现智能检索

llzwxh888

于 2024-10-03 04:09:42 发布

阅读量165

点赞数

文章标签：人工智能 python

本文链接：https://blog.csdn.net/ppoojjj/article/details/142688052

版权

# 探索Voyage AI的嵌入式向量化模型：实现智能检索

## 引言

在现代AI应用中，嵌入式向量化模型成为了文本分析和语义检索的核心技术之一。本文将带您深入探索Voyage AI提供的领先嵌入式模型，以及如何利用这些模型构建一个简约的语义检索系统。

## 主要内容

### 1. Voyage AI简介

Voyage AI提供多种嵌入模型，可以根据不同的应用场景选择合适的模型。要使用Voyage AI的服务，您需要先在其官网注册账号并获取API密钥。支持的模型包括但不限于：

- voyage-large-2 (默认)
- voyage-code-2
- voyage-law-2
- voyage-finance-2
- voyage-multilingual-2

### 2. 如何加载Voyage AI Embedding类

首先，确保安装了LangChain合作包：

```bash
pip install langchain-voyageai

接着，您可以使用以下代码创建嵌入模型实例：

from langchain_voyageai import VoyageAIEmbeddings

embeddings = VoyageAIEmbeddings(
    voyage_api_key="[ Your Voyage API key ]", model="voyage-law-2"  # 使用API代理服务提高访问稳定性
)

3. 嵌入文档和查询

准备好文档后，可以使用embed_documents方法获得它们的嵌入：

documents = [
    "Caching embeddings enables the storage or temporary caching of embeddings...",
    "An LLMChain is a chain that composes basic LLM functionality...",
    "A Runnable represents a generic unit of work that can be invoked..."
]

documents_embds = embeddings.embed_documents(documents)
print(documents_embds[0][:5])

类似地，可以使用embed_query方法对查询进行嵌入：

query = "What's an LLMChain?"

query_embd = embeddings.embed_query(query)
print(query_embd[:5])

4. 构建简约检索系统

嵌入的主要特性在于它们的余弦相似度可以捕捉到文本的语义相关性。我们可以使用LangChain的KNNRetriever进行基于嵌入的语义检索：

from langchain_community.retrievers import KNNRetriever

retriever = KNNRetriever.from_texts(documents, embeddings)

result = retriever.invoke(query)
top1_retrieved_doc = result[0].page_content
print(top1_retrieved_doc)