引言
在当今数据驱动的世界中,能高效处理多模态数据的数据库变得愈发重要。DingoDB作为一种分布式多模态向量数据库,结合了数据湖和向量数据库的特点,能够存储任意类型和大小的数据(如Key-Value,PDF,音频,视频等)。本文将展示如何使用DingoDB创建一个向量存储并利用SelfQueryRetriever进行自查询,实现对多模态数据的快速分析和处理。
主要内容
创建DingoDB索引
在开始使用DingoDB前,请确保您已启动一个DingoDB实例。我们将创建一个向量存储,并用一些电影摘要数据进行初始化。
安装DingoDB客户端
首先,您需要安装DingoDB的Python客户端:
%pip install --upgrade --quiet dingodb
# 或安装最新版
%pip install --upgrade --quiet git+https://git@github.com/dingodb/pydingo.git
创建索引并上传数据
在创建索引之前,确保您拥有OpenAI API密钥以生成嵌入。
import os
from langchain_community.vectorstores import Dingo
from langchain_core.documents import Document
from langchain_openai import OpenAIEmbeddings
from dingodb import DingoDB
OPENAI_API_KEY = "your-api-key" # 替换为您的OpenAI API密钥
os.environ["OPENAI_API_KEY"] <