deeplake - 深湖 AI 数据库

最新推荐文章于 2025-03-24 18:42:23 发布

编程乐园

最新推荐文章于 2025-03-24 18:42:23 发布

阅读量2.3k

点赞数 28

分类专栏： LLM & AIGC 文章标签： deeplake 数据库向量检索 langchain llm

本文链接：https://blog.csdn.net/lovechris00/article/details/137077170

版权

LLM & AIGC 专栏收录该内容

161 篇文章

订阅专栏

本文介绍了DeepLake，一种用于AI数据管理的数据库，演示了如何在Activeloop平台上安装、创建、加载数据集以及在PyTorch中使用预置的CIFAR10数据集进行模型训练。文章还比较了DeepLake与其他工具如DVC、TFDS和HuggingFace的区别。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

文章目录

关于 deeplake

Database for AI. Store Vectors, Images, Texts, Videos, etc. Use with LLMs/LangChain. Store, query, version, & visualize any AI data. Stream data in real-time to PyTorch/TensorFlow.

官网：https://www.deeplake.ai
github : https://github.com/activeloopai/deeplake
中文说明： https://github.com/activeloopai/deeplake/blob/main/README.zh-cn.md （本文转载改编自此）
官方文档：https://docs.activeloop.ai/
PYPI : https://pypi.org/project/deeplake/

Deep Lake 是一种数据集格式，提供简单的 API 以用于创建、存储和协作处理任何规模的 AI 数据集。Deep Lake 的数据布局可在大规模训练模型的同时实现数据的快速转换和流式传输。

Deep Lake 包括以下功能：

与存储无关的 API
使用相同的 API 向/从 AWS S3/S3 兼容存储、GCP、Activeloop 云、本地存储以及内存中上传、下载和流式传输数据集。
压缩存储
以原生压缩方式存储图像、音频和视频，仅在需要时解压缩，例如在训练模型时。
惰性 NumPy 类索引
将 S3 或 GCP 数据集视为系统内存中 NumPy 数组的集合。对它们进行切片、索引或迭代。只会下载您要求的字节！
数据集版本控制
提交、创建分支、切换分支 - 您在代码存储库中已经熟悉的概念现在也可以应用于您的数据集！
与深度学习框架的集成
Deep Lake 带有 Pytorch 和 Tensorflow 的内置集成。用几行代码训练你的模型——我们甚至负责数据集洗牌。😃
分布式转换
使用多线程、多处理或我们的内置Ray集成快速在您的数据集进行转换操作。
在几秒钟内可用100 多个最流行的图像、视频和音频数据集
Deep Lake 社区已经上传100 多个图像、视频和音频数据集等例如 MNIST, COCO, ImageNet, CIFAR, GTZAN 等等.
Activeloop平台提供即时可视化支持
Deep Lake 数据集在Activeloop 平台中通过边界框、掩码、注释等立即实现可视化（见下文）.

在这里插入图片描述

安装 Deep Lake

Deep Lake 是用 100% Python 编写的，可以使用 pip 快速安装。

pip3 install deeplake

默认情况下，Deep Lake 不安装音频、视频、google 和其他功能的依赖项。

其他安装选项

Install command	Description	Dependencies installed
`pip install"deeplake[av]"`	Audio and video support via PyAV	av
`pip install"deeplake[visualizer]"`	Visualize Deep Lake datasets within notebooks. This is required for `Dataset.visualize` to work.	IPython, flask
`pip install"deeplake[gcp]"`	GCS support	google-cloud-storage, google-auth, google-auth-oauthlib
`pip install"deeplake[azure]"`	Azure Blob Storage support	azure-storage-blob, azure-cli, azure-identity
`pip install"deeplake[medical]"`	DICOM and NIfTI data support	pydicom, nibabel
`pip install"deeplake[gdrive]"`	Google Drive support	google-api-python-client, oauth2client, google-auth, google-auth-oauthlib
`pip install"deeplake[point_cloud]"`	Support for LiDAR point cloud data	laspy
`pip install"deeplake[all]"`	Installs all of the above

🧠 在 Hub 数据集上训练 PyTorch 模型

1、加载 CIFAR 10，这是 Deep Lake 中现成的数据集之一：

import deeplake
import torch
from torchvision import transforms, models

ds = deeplake.load('hub://activeloop/cifar10-train')

2、检查数据集中的张量：

ds.tensors.keys()    # dict_keys(['images', 'labels'])
ds.labels[0].numpy() # array([6], dtype=uint32)

3、在 CIFAR 10 数据集上训练 PyTorch 模型，无需下载

首先，为图像定义一个转换并使用 Deep Lake 的内置 PyTorch 单行数据加载器将数据连接到计算：

tform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize([0.5, 0.5, 0.5], [0.5, 0.5, 0.5]),
])

deeplake_loader = ds.pytorch(num_workers=0, batch_size=4, transform={
                        'images': tform, 'labels': None}, shuffle=True)

4、接下来，定义模型、损失和优化器：

net = models.resnet18(pretrained=False)
net.fc = torch.nn.Linear(net.fc.in_features, len(ds.labels.info.class_names))
    
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(net.parameters(), lr=0.001, momentum=0.9)

5、最后，2 个 epoch 的训练循环：

for epoch in range(2):
    running_loss = 0.0
    for i, data in enumerate(deeplake_loader):
        images, labels = data['images'], data['labels']
        
        # zero the parameter gradients
        optimizer.zero_grad()

        # forward + backward + optimize
        outputs = net(images)
        loss = criterion(outputs, labels.reshape(-1))
        loss.backward()
        optimizer.step()
        
        # print statistics
        running_loss += loss.item()
        if i % 100 == 99:    # print every 100 mini-batches
            print('[%d, %5d] loss: %.3f' %
                (epoch + 1, i + 1, running_loss / 100))
            running_loss = 0.0

🏗️ 如何创建一个 Deep Lake 数据集

可以在不同地址（存储提供商）创建 Deep Lake 数据集。这就是他们每个路径：

存储提供商	示例路径
Activeloop 云	hub://user_name/dataset_name
AWS S3 / S3 兼容	s3://bucket_name/dataset_name
GCP	gcp://bucket_name/dataset_name
本地存储	path to local directory
内存	mem://dataset_name

让我们在 Activeloop 云中创建一个数据集。

Activeloop 云为每位用户提供高达 300 GB 的免费存储空间（更多信息请点击此处）。

如果您还没有账号，请从终端使用activeloop register 创建一个新帐户。

系统将要求您输入用户名、电子邮件 ID 和密码。您在此处输入的用户名将用于数据集路径。

$ activeloop register
Enter your details. Your password must be at least 6 characters long.
Username:
Email:
Password:

在 Activeloop Cloud 中初始化一个空数据集：

import deeplake

ds = deeplake.empty("hub://<USERNAME>/test-dataset")

接下来，创建一个张量来保存我们刚刚初始化的数据集中的图像：

images = ds.create_tensor("images", htype="image", sample_compression="jpg")

假设您有一个图像文件路径列表，让我们将它们上传到数据集：

image_paths = ...
with ds:
    for image_path in image_paths:
        image = deeplake.read(image_path)
        ds.images.append(image)

或者，您也可以上传 numpy 数组。

由于 images 张量是使用 sample_compression="jpg" 创建的，数组将使用 jpeg 压缩进行压缩。

import numpy as np

with ds:
    for _ in range(1000):  # 1000 random images
        random_image = np.random.randint(0, 256, (100, 100, 3))  # 100x100 image with 3 channels
        ds.images.append(random_image)

🚀 如何加载 Deep Lake 数据集

您可以使用一行代码加载刚刚创建的数据集：

import deeplake

ds = deeplake.load("hub://<USERNAME>/test-dataset")

您还可以访问 Deep Lake 格式的 100 多个图像、视频和音频数据集，而不仅仅是您创建的那些。

以下是加载 Objectron Bikes 数据集的方法:

import deeplake

ds = deeplake.load('hub://activeloop/objectron_bike_train')

要以 numpy 格式获取 Objectron Bikes 数据集中的第一张图像：

image_arr = ds.image[0].numpy()

👩‍💻 与熟悉工具的比较

Activeloop Deep Lake vs DVC

Deep Lake 和 DVC 为数据提供类似于 git 的数据集版本控制，但它们存储数据的方法有很大不同。Deep Lake 将数据转换并存储为分块压缩数组，从而可以快速流式传输到 ML 模型，而 DVC 在存储在效率较低的传统文件结构中的数据之上运行。当数据集由许多文件（即许多图像）组成时，与 DVC 的传统文件结构相比，Deep Lake 格式使数据集版本控制更加容易。另一个区别是 DVC 主要使用命令行界面，而 Deep Lake 是 Python 包。最后，Deep Lake 提供了一个 API，可以轻松地将数据集连接到 ML 框架和其他常见的 ML 工具，并通过Activeloop 的可视化工具实现即时数据集可视化.

Activeloop Deep Lake vs TensorFlow 数据集 (TFDS)

Deep Lake 和 TFDS 将流行的数据集无缝连接到 ML 框架。Deep Lake 数据集与 PyTorch 和 TensorFlow 兼容，而 TFDS 仅与 TensorFlow 兼容。Deep Lake 和 TFDS 之间的一个关键区别在于，Deep Lake 数据集是为从云端流式传输而设计的，而 TFDS 必须在使用前在本地下载。因此使用 Deep Lake 可以直接从 TensorFlow 数据集导入数据集，并将它们流式传输到 PyTorch 或 TensorFlow。除了提供对流行的公开数据集的访问之外，Deep Lake 还提供强大的工具来创建自定义数据集，将它们存储在各种云存储提供商上，并通过简单的 API 与他人协作。TFDS 主要专注于让公众轻松访问常用数据集，而自定义数据集的管理不是主要关注点。一个详细的对比介绍可以在这里看到.

Activeloop Deep Lake vs HuggingFace

Deep Lake 和 HuggingFace 都提供对流行数据集的访问，但 Deep Lake 主要专注于计算机视觉，而 HuggingFace 专注于自然语言处理。HuggingFace 变换和其他 NLP 计算工具与 Deep Lake 提供的功能不同。
Activeloop Deep Lake vs WebDatasets
Deep Lake 和 WebDatasets 都提供跨网络的快速数据流。它们具有几乎相同的传输速度，因为底层网络请求和数据结构非常相似。但是，Deep Lake 提供了卓越的随机访问和改组，其简单的 API 是在 python 中而不是命令行中，并且 Deep Lake 可以对数据集进行简单的索引和修改，而无需重新创建它。