DocArray 开源项目教程

最新推荐文章于 2024-08-31 07:30:26 发布

荣正青

最新推荐文章于 2024-08-31 07:30:26 发布

阅读量373

点赞数 4

本文链接：https://blog.csdn.net/gitblog_00060/article/details/141119817

版权

DocArray 开源项目教程

docarrayRepresent, send, store and search multimodal data项目地址:https://gitcode.com/gh_mirrors/doc/docarray

项目介绍

DocArray 是一个专门为多模态数据表示、传输、存储和检索而设计的 Python 库。它旨在支持多模态 AI 应用的开发，并保证与广泛的 Python 和机器学习生态系统的无缝集成。DocArray 提供了对 NumPy、PyTorch、TensorFlow 和 JAX 的原生支持，特别适用于模型训练场景。此外，它基于 Pydantic，并立即兼容 FastAPI 等 Web 和微服务框架。

项目快速启动

安装 DocArray

要安装 DocArray，请在命令行中运行以下命令：

pip install -U docarray

基本使用示例

以下是一个简单的示例，展示如何使用 DocArray 创建和查询文档：

from docarray import DocList, BaseDoc
from docarray.index import HnswDocumentIndex
import numpy as np
from docarray.typing import ImageUrl, ImageTensor, NdArray

class ImageDoc(BaseDoc):
    url: ImageUrl
    tensor: ImageTensor
    embedding: NdArray[128]

# 创建一些数据
dl = DocList[ImageDoc](
    [
        ImageDoc(
            url="https://upload.wikimedia.org/wikipedia/commons/2/2f/Alpamayo.jpg",
            tensor=np.zeros((3, 224, 224)),
            embedding=np.random.random((128,))
        )
        for _ in range(100)
    ]
)

# 创建一个文档索引
index = HnswDocumentIndex[ImageDoc](work_dir='/tmp/test_index2')

# 索引你的数据
index.index(dl)

# 查找相似的文档
query = np.random.random((128,))
results = index.find(query, search_field='embedding')