PGVecto.rs: 高性能向量数据库在AI应用中的实践

ahdfwcevnhrtds

于 2024-09-14 20:38:41 发布

阅读量390

点赞数 7

文章标签：数据库人工智能 python

本文链接：https://blog.csdn.net/ahdfwcevnhrtds/article/details/142266037

版权

PGVecto.rs: 高性能向量数据库在AI应用中的实践

引言

在人工智能和机器学习领域，高效的向量搜索和存储变得越来越重要。PGVecto.rs作为一个基于PostgreSQL的高性能向量数据库扩展，为开发者提供了强大的工具来处理和查询大规模向量数据。本文将深入探讨PGVecto.rs的使用方法，并通过实际代码示例展示其在AI应用中的实践。

PGVecto.rs简介

PGVecto.rs是一个为PostgreSQL设计的向量数据库扩展，它提供了高效的向量索引和相似度搜索功能。与传统的关系型数据库相比，PGVecto.rs能够更好地处理高维向量数据，这使得它在文本嵌入、图像特征存储等AI应用场景中表现出色。

环境设置

在开始使用PGVecto.rs之前，我们需要安装必要的依赖并启动数据库服务。

首先，安装所需的Python包：

pip install "pgvecto_rs[sdk]" langchain-community

然后，使用Docker启动PGVecto.rs演示数据库：

docker run --name pgvecto-rs-demo -e POSTGRES_PASSWORD=mysecretpassword -p 5432:5432 -d tensorchord/pgvecto-rs:latest

代码示例：文本向量化和相似度搜索

下面我们将通过一个完整的代码示例，展示如何使用PGVecto.rs进行文本向量化和相似度搜索。

from typing import List
from langchain_community.document_loaders import TextLoader
from langchain_community.embeddings.fake import FakeEmbeddings
from langchain_community.vectorstores.pgvecto_rs import PGVecto_rs
from langchain_core.documents import Document
from langchain_text_splitters import CharacterTextSplitter
import os

# 设置数据库连接参数
PORT = os.getenv("DB_PORT", 5432)
HOST = os.getenv("DB_HOST", "localhost")
USER = os.getenv("DB_USER", "postgres")
PASS = os.getenv("DB_PASS", "mysecretpassword")
DB_NAME = os.getenv("DB_NAME", "postgres")

# 构建数据库URL
URL = f"postgresql+psycopg://{USER}:{PASS}@{HOST}:{PORT}/{DB_NAME}"

# 加载文本数据
loader = TextLoader("state_of_the_union.txt")
documents = loader.load()

# 文本分割
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

# 使用假的嵌入模型（实际应用中应使用真实的嵌入模型）
embeddings = FakeEmbeddings(size=3)

# 创建向量存储
db = PGVecto_rs.from_documents(
    documents=docs,
    embedding=embeddings,
    db_url=URL,
    collection_name="state_of_the_union",
)

# 执行相似度搜索
query = "What did the president say about Ketanji Brown Jackson"
similar_docs: List[Document] = db.similarity_search(query, k=4)

# 打印搜索结果
for doc in similar_docs:
    print(doc.page_content)
    print("======================")

# 使用过滤器进行搜索
from pgvecto_rs.sdk.filters import meta_contains

filtered_docs: List[Document] = db.similarity_search(
    query, 
    k=4, 
    filter=meta_contains({"source": "state_of_the_union.txt"})
)

# 打印过滤后的搜索结果
for doc in filtered_docs:
    print(doc.page_content)
    print("======================")