数据集的下载

介绍如何在ModelScope平台下载数据集。无论您是想使用Python SDK、GIT还是相应的命令行工具,这里都有详细的步骤帮助您快速上手。

快速使用#

下载指定的文件#

  1. 访问数据集页面。
  2. 点击每个文件的下载按钮直接下载该文件。

image.png

下载整个数据集#

点击下载数据集按钮,即可看到使用SDK、GIT或命令行下载数据集的具体命令。

image.png


下面对每种方法进行详细介绍:

1. 使用Python SDK下载数据集#

您可以通过modelscope库轻松下载数据集,并进行相关的操作(创建、删除、更新和检索信息)。

安装Python SDK#

首先,确保您已安装ModelScope的Python SDK,使用以下命令:

 

pip install modelscope[framework]

下载数据集示例#

使用以下代码下载数据集:

 

from modelscope import MsDataset # 加载数据集 ds = MsDataset.load('afqmc_small', split='train')

2. 使用GIT下载数据集#

如果您更喜欢使用GIT,可以通过以下方式下载数据集。

公开数据集下载#

 

# 安装Git LFS(大文件存储) git lfs install # 克隆公开数据集 git clone https://www.modelscope.cn/datasets/<namespace>/<dataset-name>.git # 示例: git clone https://www.modelscope.cn/datasets/DAMO_NLP/jd.git

私有数据集下载#

注意: 您需要相应的数据集权限。

 

# 使用Git LFS git lfs install # 克隆私有数据集 git clone http://oauth2:<your_git_token>@www.modelscope.cn/datasets/<namespace>/<dataset-name>.git

或者使用以下方法:

 

git clone http://<your_user_name>@www.modelscope.cn/datasets/<namespace>/<dataset-name>.git # 输入您的Git Token作为密码

获取OAuth Token#

  1. 登录 ModelScope官网
  2. 进入个人中心 -> 访问令牌,复制您的Git Token。

3. 使用命令行工具下载数据集文件#

通过命令行,您可以灵活下载数据集文件。

命令格式#

 

modelscope download --dataset DATASET_NAME [options] [files ...]

常用选项#

  • --dataset: 指定要下载的数据集ID。
  • --local_dir: 指定下载文件的本地位置。
  • --cache_dir: 缓存目录,默认下载到此。
  • --include: 指定要下载的文件。
  • --exclude: 指定要过滤的文件。

使用示例#

命令示例(以SA1B-Dense-Caption)为例

  1. 指定下载单个文件

     

    modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' dataset_infos.json

  2. 指定下载多个个文件  

     

    modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' dataset_infos.json README.md

  3. 指定下载某些文件 

     

    modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' --include 'data/train-000*'

  4. 过滤指定文件

     

    modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' --exclude 'data/train-000*'

  5. 指定下载cache_dir 

     

    modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' --include 'data/train-000*' --cache_dir './cache_dir'

    模型文件将被下载在./cache_dir

  6. 指定下载local_dir    

     

    modelscope download --dataset 'Tongyi-DataEngine/SA1B-Dense-Caption' --include 'data/train-000*' --local_dir './local_dir'

    模型文件将被下载在./local_dir

注意:若cache_dirlocal_dir同时指定,local_dir优先级高,cache_dir将被忽略

下载私有模型时需要SDK Token#

您可以在我的页面获取SDK 令牌

方式1:先登录再下载#

 

modelscope login --token YOUR_MODELSCOPE_SDK_TOKEN

方式二:指定token参数下载#

 

modelscope --token 'YOUR_MODELSCOPE_SDK_TOKEN' download --dataset 'YOUR_DATASET_NAME'

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值