使用Supabase和Postgres构建智能AI应用：从零开始的向量存储教程

最新推荐文章于 2024-10-04 22:36:54 发布

aehrutktrjk

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量231

点赞数 3

文章标签：人工智能

本文链接：https://blog.csdn.net/aehrutktrjk/article/details/142291187

版权

引言

在AI驱动的应用程序开发中，高效的数据存储与检索是关键因素。Supabase 作为一个开源的 Firebase 替代方案，提供了强大的功能，特别是结合PostgreSQL与pgvector，可以在大规模下存储、索引和查询向量嵌入。本篇文章将带你一步步在Supabase中实现一个智能的自查询检索系统。

主要内容

1. 创建Supabase数据库

首先，访问 Supabase 来创建你的数据库。在SQL编辑器中运行以下脚本以启用 pgvector 并设置数据库：

-- 启用pgvector扩展以处理嵌入向量
create extension if not exists vector;

-- 创建表用于存储文档
create table
  documents (
    id uuid primary key,
    content text, -- 对应Document.pageContent
    metadata jsonb, -- 对应Document.metadata
    embedding vector (1536) -- 1536宽度适用于OpenAI嵌入
  );

-- 创建用于文档检索的函数
create function match_documents (
  query_embedding vector (1536),
  filter jsonb default '{}'
) returns table (
  id uuid,
  content text,
  metadata jsonb,
  similarity float
) language plpgsql as $$
#variable_conflict use_column
begin
  return query
  select
    id,
    content,
    metadata,
    1 - (documents.embedding <=> query_embedding) as similarity
  from documents
  where metadata @> filter
  order by documents.embedding <=> query_embedding;
end;
$$;

2. 安装依赖包

安装 langchain, lark 和 supabase 以支持向量存储与嵌入：

%pip install --upgrade --quiet langchain langchain-openai tiktoken
%pip install --upgrade --quiet lark
%pip install --upgrade --quiet supabase

3. 配置环境变量

使用 getpass 来安全地设置API密钥和URL：

import getpass
import os

os.environ["SUPABASE_URL"] = getpass.getpass("Supabase URL:")
os.environ["SUPABASE_SERVICE_KEY"] = getpass.getpass("Supabase Service Key:")
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

4. 创建向量存储并导入文档

创建Supabase客户端并实例化OpenAI嵌入类：

import os
from langchain_community.vectorstores import SupabaseVectorStore
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
from supabase.client import Client, create_client

supabase_url = os.environ.get("SUPABASE_URL")
supabase_key = os.environ.get("SUPABASE_SERVICE_KEY")
supabase: Client = create_client(supabase_url, supabase_key)

embeddings = OpenAIEmbeddings()

docs = [
    Document(
        page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose",
        metadata={"year": 1993, "rating": 7.7, "genre": "science fiction"},
    ),
    # 其他文档
]

vectorstore = SupabaseVectorStore.from_documents(
    docs,
    embeddings,
    client=supabase,
    table_name="documents",
    query_name="match_documents",
)

5. 构建自查询检索器

创建检索器以实现通过语言模型进行自查询：

from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import OpenAI

metadata_field_info = [
    AttributeInfo(name="genre", description="The genre of the movie", type="string or list[string]"),
    # 其他元数据字段
]

document_content_description = "Brief summary of a movie"
llm = OpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(
    llm, vectorstore, document_content_description, metadata_field_info, verbose=True
)

代码示例

尝试使用我们的检索器：

# 示例 1：使用相关查询
retriever.invoke("What are some movies about dinosaurs")

# 示例 2：使用过滤器
retriever.invoke("I want to watch a movie rated higher than 8.5")