使用Supabase和Postgres构建智能AI应用:从零开始的向量存储教程

引言

在AI驱动的应用程序开发中,高效的数据存储与检索是关键因素。Supabase 作为一个开源的 Firebase 替代方案,提供了强大的功能,特别是结合PostgreSQL与pgvector,可以在大规模下存储、索引和查询向量嵌入。本篇文章将带你一步步在Supabase中实现一个智能的自查询检索系统。

主要内容

1. 创建Supabase数据库

首先,访问 Supabase 来创建你的数据库。在SQL编辑器中运行以下脚本以启用 pgvector 并设置数据库:

-- 启用pgvector扩展以处理嵌入向量
create extension if not exists vector;

-- 创建表用于存储文档
create table
  documents (
    id uuid primary key,
    content text, -- 对应Document.pageContent
    metadata jsonb, -- 对应Document.metadata
    embedding vector (1536) -- 1536宽度适用于OpenAI嵌入
  );

-- 创建用于文档检索的函数
create function match_documents (
  query_embedding vector (1536),
  filter jsonb default '{}'
) returns table (
  id uuid,
  content text,
  metadata jsonb,
  similarity float
) language plpgsql as $$
#variable_conflict use_column
begin
  return query
  select
    id,
    content,
    metadata,
    1 - (documents.embedding <=> query_embedding) as similarity
  from documents
  where metadata @> filter
  order by documents.embedding <=> query_embedding;
end;
$$;

2. 安装依赖包

安装 langchain, larksupabase 以支持向量存储与嵌入:

%pip install --upgrade --quiet langchain langchain-openai tiktoken
%pip install --upgrade --quiet lark
%pip install --upgrade --quiet supabase

3. 配置环境变量

使用 getpass 来安全地设置API密钥和URL:

import getpass
import os

os.environ["SUPABASE_URL"] = getpass.getpass("Supabase URL:")
os.environ["SUPABASE_SERVICE_KEY"] = getpass.getpass("Supabase Service Key:")
os.environ["OPENAI_API_KEY"] = getpass.getpass("OpenAI API Key:")

4. 创建向量存储并导入文档

创建Supabase客户端并实例化OpenAI嵌入类:

import os
from langchain_community.vectorstores import SupabaseVectorStore
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
from supabase.client import Client, create_client

supabase_url = os.environ.get("SUPABASE_URL")
supabase_key = os.environ.get("SUPABASE_SERVICE_KEY")
supabase: Client = create_client(supabase_url, supabase_key)

embeddings = OpenAIEmbeddings()

docs = [
    Document(
        page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose",
        metadata={"year": 1993, "rating": 7.7, "genre": "science fiction"},
    ),
    # 其他文档
]

vectorstore = SupabaseVectorStore.from_documents(
    docs,
    embeddings,
    client=supabase,
    table_name="documents",
    query_name="match_documents",
)

5. 构建自查询检索器

创建检索器以实现通过语言模型进行自查询:

from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain_openai import OpenAI

metadata_field_info = [
    AttributeInfo(name="genre", description="The genre of the movie", type="string or list[string]"),
    # 其他元数据字段
]

document_content_description = "Brief summary of a movie"
llm = OpenAI(temperature=0)
retriever = SelfQueryRetriever.from_llm(
    llm, vectorstore, document_content_description, metadata_field_info, verbose=True
)

代码示例

尝试使用我们的检索器:

# 示例 1:使用相关查询
retriever.invoke("What are some movies about dinosaurs")

# 示例 2:使用过滤器
retriever.invoke("I want to watch a movie rated higher than 8.5")

常见问题和解决方案

  • API访问问题: 某些地区访问API可能会受到限制。建议使用 API代理服务 来提高访问稳定性。
  • 嵌入维度不匹配: 确认 pgvector 扩展配置的维度与嵌入维度匹配。

总结和进一步学习资源

通过本文的指导,你已经能够在Supabase上创建一个功能强大的智能检索系统。为了进一步提升技能,你可以查看以下文章和文档:

参考资料

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

—END—

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值