OpenxLab 数据集下载
1. 环境配置
- 创建 conda 环境:要求 python >= 3.8
conda create -n openxlab python=3.9
- openxlab 安装
pip install openxlab -i https://pypi.mirrors.ustc.edu.cn/simple/
2. AK 和 SK 配置
- 用户中心的【密钥管理】中【添加密钥】
2.1 通过 CLI 命令配置
>> openxlab login
OpenXLab Access Key ID : xxxxxxxxxxxxxxxxxxxx
OpenXLab Secret Access Key : xxxxxxxxxxxxxxxxxxx
- 通过
openxlab login
命令按照提示输入对应的Access key
和Secret key
。完成后会在~/.openxlab
目录下生成config.json
文件,格式如下:{ "ak": "xxxxxxxxxxxxxxxxxxxx", "sk": "xxxxxxxxxxxxxxxxxxxx" }
2.2 通过创建 config.json 文件方式配置
- 直接在
~/.openxlab
目录下创建对应的config.json
文件,填入对应的Access key
和Secret key
,格式如下:{ "ak": "xxxxxxxxxxxxxxxxxxxx", "sk": "xxxxxxxxxxxxxxxxxxxx" }
2.3 AK 和 SK 鉴权
- 通过
openxlab.login()
函数进行配置 AK / SK 进行鉴权。import openxlab openxlab.login(ak=<Access Key>, sk=<Secrete Key>)
3. 数据集下载
3.1 使用 CIL 下载数据集
#TODO 下载数据集的整个仓库
openxlab dataset get --dataset-repo username/repo-name
--target-path /path/to/local/folder
# 示例
openxlab dataset get -r username/repo-name
-t /path/to/local/folder
#TODO 下载数据集文件
openxlab dataset download --dataset-repo username/repo-name
--source-path /train/file
--target-path /path/to/local/folder
openxlab dataset download -r username/repo-name
-s /train/file
-t /path/to/local/folder
-
参数说明:
参数 缩写 是否必填 参数类型 参数说明 示例 dataset-repo -r 是 String 数据集仓库的地址,由 username/repo_name 组成 username/repo-name source-path -s 是 String 对应数据集仓库下文件的相对路径 -s /train/file target-path -t 否 String 下载仓库指定的本地路径 username/–target-path /path/to/local/folder
3.2 使用 SDK 下载数据集
#TODO 下载数据集的整个仓库
from openxlab.dataset import get
get(dataset_repo='username/repo_name', target_path='/path/to/local/folder')
#TODO 下载数据集文件
from openxlab.dataset import download
download(dataset_repo='username/repo_name', source_path='/train/file', target_path='/path/to/local/folder')
-
参数说明:
参数 缩写 是否必填 参数类型 参数说明 示例 dataset-repo -r 是 String 数据集仓库的地址,由 username/repo_name 组成 username/repo-name source-path -s 是 String 对应数据集仓库下文件的相对路径 -s /train/file target-path -t 否 String 下载仓库指定的本地路径 username/–target-path /path/to/local/folder
4. 下载示例
- 本文以ImageNet-22k下载为例,openxlab 中显示界面如下:
- 使用 SDK 下载:
from openxlab.dataset import get get(dataset_repo='OpenDataLab/ImageNet-21k', target_path='./Datasets/ImageNet-21k')
- 数据集下载中界面展示:
耐心等待数据下载完成即可!!!
参考链接: openxlab 文档中心