[深入探索Pinecone：高效管理向量数据库的指南]

llzwxh888

于 2024-10-07 21:49:50 发布

阅读量148

点赞数 1

文章标签：数据库 python 开发语言

本文链接：https://blog.csdn.net/ppoojjj/article/details/142747234

版权

引言

在构建现代应用程序时，管理和查询大规模向量数据已成为一项重要任务。Pinecone作为一种功能广泛的向量数据库，提供了卓越的性能和易用性。本篇文章将引导您如何通过Pinecone高效管理和查询向量数据，并提供实用的代码示例和解决方案。

主要内容

安装和设置

要使用PineconeVectorStore，您需要安装以下包：

%pip install -qU langchain-pinecone pinecone-notebooks

请注意，如果您正在从langchain_community.vectorstores的实现迁移，需要先移除pinecone-clientv2依赖，再安装langchain-pinecone。

认证

首先，创建或登录您的Pinecone账号，并生成一个API密钥。

import getpass
import os
from pinecone import Pinecone

if not os.getenv("PINECONE_API_KEY"):
    os.environ["PINECONE_API_KEY"] = getpass.getpass("Enter your Pinecone API key: ")

pc = Pinecone(api_key=os.environ.get("PINECONE_API_KEY"))

初始化

连接到Pinecone索引，如果索引不存在则创建：

index_name = "langchain-test-index"
existing_indexes = [index_info["name"] for index_info in pc.list_indexes()]

if index_name not in existing_indexes:
    pc.create_index(
        name=index_name,
        dimension=3072,
        metric="cosine",
        spec=ServerlessSpec(cloud="aws", region="us-east-1"),
    )

向量存储和嵌入

选择适合的嵌入模型：

from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

初始化向量存储：

from langchain_pinecone import PineconeVectorStore

vector_store = PineconeVectorStore(index=index, embedding=embeddings)

代码示例

添加文档

from uuid import uuid4
from langchain_core.documents import Document

documents = [
    Document(page_content="Sample content 1", metadata={"source": "example"}),
    Document(page_content="Sample content 2", metadata={"source": "example"}),
]
uuids = [str(uuid4()) for _ in range(len(documents))]

vector_store.add_documents(documents=documents, ids=uuids)

查询向量存储

进行简单的相似度搜索：

results = vector_store.similarity_search(
    "Sample query", k=2, filter={"source": "example"}
)
for res in results:
    print(f"* {res.page_content} [{res.metadata}]")