介绍如何在ModelScope平台下载数据集。无论您是想使用Python SDK、GIT还是相应的命令行工具,这里都有详细的步骤帮助您快速上手。
快速使用#
下载指定的文件#
- 访问数据集页面。
- 点击每个文件的
下载
按钮直接下载该文件。
下载整个数据集#
点击下载数据集
按钮,即可看到使用SDK、GIT或命令行下载数据集的具体命令。
下面对每种方法进行详细介绍:
1. 使用Python SDK下载数据集#
您可以通过modelscope
库轻松下载数据集,并进行相关的操作(创建、删除、更新和检索信息)。
安装Python SDK#
首先,确保您已安装ModelScope的Python SDK,使用以下命令:
pip install modelscope[framework]
下载数据集示例#
使用以下代码下载数据集:
from modelscope import MsDataset # 加载数据集 ds = MsDataset.load('afqmc_small', split='train')
2. 使用GIT下载数据集#
如果您更喜欢使用GIT,可以通过以下方式下载数据集。
公开数据集下载#
# 安装Git LFS(大文件存储) git lfs install # 克隆公开数据集 git clone https://www.modelscope.cn/datasets/<namespace>/<dataset-name>.git # 示例: git clone https://www.modelscope.cn/datasets/DAMO_NLP/jd.git
私有数据集下载#
注意: 您需要相应的数据集权限。
# 使用Git LFS git lfs install # 克隆私有数据集 git clone http://oauth2:<your_git_token>@www.modelscope.cn/datasets/<namespace>/<dataset-name>.git
或者使用以下方法:
git clone http://<your_user_name>@www.modelscope.cn/datasets/<namespace>/<dataset-name>.git # 输入您的Git Token作为密码
获取OAuth Token#
- 登录 ModelScope官网。
- 进入个人中心 -> 访问令牌,复制您的Git Token。
3. 使用命令行工具下载数据集文件#
通过命令行,您可以灵活下载数据集文件。
命令格式#
modelscope download --dataset DATASET_NAME [options] [files ...]
常用选项#
--dataset
: 指定要下载的数据集ID。--local_dir
: 指定下载文件的本地位置。--cache_dir
: 缓存目录,默认下载到此。--include
: 指定要下载的文件。--exclude
: 指定要过滤的文件。
使用示例#
命令示例(以SA1B-Dense-Caption)为例
-
指定下载单个文件
modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' dataset_infos.json
-
指定下载多个个文件
modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' dataset_infos.json README.md
-
指定下载某些文件
modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' --include 'data/train-000*'
-
过滤指定文件
modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' --exclude 'data/train-000*'
-
指定下载cache_dir
modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' --include 'data/train-000*' --cache_dir './cache_dir'
模型文件将被下载在
./cache_dir
-
指定下载local_dir
modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' --include 'data/train-000*' --local_dir './local_dir'
模型文件将被下载在
./local_dir
注意:若cache_dir
和local_dir
同时指定,local_dir
优先级高,cache_dir
将被忽略
下载私有模型时需要SDK Token#
您可以在我的页面获取SDK 令牌
方式1:先登录再下载#
modelscope login --token YOUR_MODELSCOPE_SDK_TOKEN
方式二:指定token参数下载#
modelscope --token 'YOUR_MODELSCOPE_SDK_TOKEN' download --dataset 'YOUR_DATASET_NAME'