数据集卡片

介绍数据集卡片(Dataset card) 的定义、编辑规范、使用方式和管理说明。

什么是数据集卡片#

数据集卡片是ModelScope社区用户获取数据集信息的关键来源,是数据集附带的文件,主要通过解析元数据文件中的README.md文件获取。数据集卡片是由YAML元数据和Markdown文档内容组成,提供了各类介绍信息。

因此我们强烈推荐平台用户根据规范撰写属于您的数据集卡片,以便让社区用户更好地了解和发现您的数据集!

数据集卡片提供哪些信息#

我们推荐数据集卡片提供如下内容描述,可通过数据集介绍页面进行查看,包括但不限于:

  • 数据集协议、标签信息。其中标签包含系统推荐标签和用户自定义标签。
  • 数据集描述与简介。介绍该数据集的基础信息、使用场景、子数据集、用途、数据量等。
  • 支持的模型。明确该数据集支持的模型信息。
  • 数据集的格式和结构。 包含数据的schema信息,并提供必要的数据样本示范。
  • 如何使用。 可以给出简单示例介绍用户如何使用该数据集,包括所使用的框架、运行环境要求等。若给出代码范例供效果更佳。
  • 数据集生成的相关信息。可以包含原始数据来源、数据标注方式、标注过程等。

数据集卡片的元数据#

一个有效的数据集卡片需要包含YAML头部信息和Markdown文本。 头部的YAML信息使用---分组进行区隔。一份完整的YAML部分的内容参考如下:

---
license: Apache License 2.0
#用户自定义标签
tags:
  - Alibaba
  - arxiv:1810.99999
  - my free-style tag

text:
  #二级只能属于一个task_categories
  fill_mask:
    #三级可以多选
    languages:
      - en
multilinguality:
  - monolingual

audio:
  automatic_speech_recognition:
    languages:
      - en
      - fr
    sampling_rates:
      - 16000 <!--- integer --->
      - 64000

image:
  Image-to-Text:
    resolutions:
      - 640 x 480 
      - 1024 x 720
    color_space:
      - rgb
    encoding:
      - jpeg

video:
  Object-Detection:
    resolutions:
      - 640 x 480
      - 1024 x 720
    encoding:
      - mpeg

multi-modal:
  Feature Extraction:
    resolutions:
      - 640 x 480
    encoding:
      - H264
    languages:
      - en
    multilinguality:
      - monolingual

configs: # 配置数据集的子数据集和划分
- config_name: default
  data_files:
  - split: train
    path: "train_data.csv"
  - split: test
    path: "test_data.csv"

---    
<!--- 以上YAML section提供属性/tags描述--->

<!--- 以下为markdown格式的dataset描述--->

## 数据集描述
数据集整体描述。

### 数据集简介
提供对于数据集的介绍,支持的使用场景(包括支持的语言等)。

### 数据集支持的任务
该数据集支持的训练任务,以及相关benchmark结果。


## 数据集的格式和结构

### 数据格式
对数据的格式进行描述,包括数据的schema,以及提供必要的数据样本示范。
如果数据集内含多个子数据集的话,每个字数据集都应该提供相对应的数据格式描述。


### 数据集加载方式
通过代码范例等方式,提供数据集通过git/SDK进行加载和使用的详细说明。

### 数据分片
数据集可以被切分成`train/test/validation`的数据分片,以便于训练和测试模型。您可以通过编辑README.md中的configs标签,来配置自定义数据分片。
您可以使用configs标签,对数据集的自定义分片进行描述。其中,config_name为分片的名称,即子数据集的名称;data_files为该子数据集的数据文件分片,包括split和path两个属性,
分别表示数据集的划分和数据文件的路径。



## 数据集生成的相关信息

### 原始数据
描述原始数据的来源以及数据的初步收集是如何进行的,是否经过归一化等处理流程。

### 数据集标注
该数据集是否包含标注,若有的话,相关信息描述。

#### 标注过程
标注是通过什么方式实现的,流程如何。

#### 标注者
标注者相关信息,尤其是当标着和原始数据提供者有所区别时。



## 数据集版权信息

数据集相关的版权信息,授权使用的场景和用户。是否开源,以及采用哪个开源协议等等。

## 引用方式

数据集是否有相关联的文章,以及如果在研究论文中要引用该数据集是否有推荐的引用格式等等。

## 其他相关信息

该数据集可能包含的个人和敏感信息,使用数据集需要考虑的相关背景;
数据集可能包含的社会意义以及其中可能包含的bias信息和可能的局限性等等。

已支持的标签可参考下表:

领域任务(英文)任务(中文)筛选标签(英文)筛选标签(中文)标签值(英文)标签值(中文)
NLPtext-classification文本分类type类型binary-class/multi-class/multi-label二分类/多分类/多标签分类
language语言cn/en中文/英语
relation-extraction关系抽取language语言cn/en中文/英语
zero-shot零样本学习language语言cn/en中文/英语
translation机器翻译language语言cn-en/en-cn/cn-jp中英/英中/中日/详见链接
token-classification词分类type类型ner/word-segmentation/pos-tagging命名实体识别/分词/词性标注
language语言cn-en/en-cn/cn-jp中英/英中/中日/详见链接
conversational智能对话size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
type类型faq/chat/kg-qa/task-qaFAQ问答/闲聊对话/知识问答/任务型对话
text-generation文本生成language语言cn/en中文/英文
type类型summarization/question-generation/data-to-text文本摘要/问题生成/结构化生成
table-question-answering表格问答language语言cn/en中文/英文
feature-extraction特征抽取language语言cn/en中文/英文
sentence-similarity句子相似度language语言cn/en中文/英文
multilingual多语言language语言cn/en/de/es/fa/ru中文/英文/德文/西班牙文/法文/俄文
fill-mask完形填空language语言cn/en中文/英文/德文/西班牙文/法文/俄文
summarization摘要总结size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
question-answering问答language语言cn/en中文、英文
CVimage-to-text文字识别size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
pose-estimation姿态估计size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
image-classification图像分类size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
image-tagging图像打标size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
object-detection通用检测size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
image-segmentation图像分割size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
image-editing图像编辑size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
image-generation图像生成size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
image-matting图像抠图size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
virtual-try-on虚拟试衣size_scale样本规模0-100/100-10k/10k-1m/>1m0-100/100-10k/10k-1m/>1m
Audioauto-speech-recognition语音识别language语言cn/en/jp中文、英语、日语,详见链接
sampling_rate采样率8000/16000/24000/32000/other8K/16K/24K/32K/其他
text-to-speech语音合成language语言cn/en/jp中文、英语、日语,详见链接
sampling_rate采样率16000/22050/24000/44100/48000/other16K/22.05K/24K/44.1K/48K/其他
style风格custom-service/live/novel/newscast/singing/spontaneous/other客服/直播/小说/播报/唱歌/口语/其他
emotion情感neutral/happy/sad/serious/surprise/angry/hate/fear/jealousy/other中性/开心/难过/严肃/惊讶/愤怒/厌恶/恐惧/嫉妒/其他
speech-signal-process语音信号处理language语言cn/en/jp中文/英语/日语/详见链接
sampling_rate采样率8000/16000/24000/32000/other8K/16K/24K/32K/其他
signal_type信号类型noise/speech/noisy_speech纯噪声/纯语音/含噪语音
channels声道数1/2/8/16/other单声道/双声道/8声道/16声道/其他
keyword-spotting语音唤醒language语言cn/en/jp中文/英语/日语/详见链接
sampling_rate采样率8000/16000/24000/32000/other8K/16K/24K/32K/其他
signal_type信号类型noise/speech/noisy_speech纯噪声/纯语音/含噪语音
scene_type场景类型near/far/car近场/远场/车机
channels声道数1/2/8/16/other单声道/双声道/8声道/16声道/其他
Audio Claassification音频分类(以下暂无三级四级标签,完善中)
Voice Activity Detection语音端点检测
VideoObject Tracking目标追踪
Action Recognition动作识别
Autonomous Driving自动驾驶
Behavior Understanding行为理解
Video Generation视频生成
Video Super Resolution视频超分辨率
Video Segmentation视频分割
Multi-Modalimage-captioning图像描述
visual-grounding视觉定位
text-to-image-synthesis文本生成图片
Layout Analysis版面分析
Visual Information Extraction视觉信息抽取
feature-extraction特征抽取
scientific-computingbiomedicine生物医学
protein-structure蛋白质结构生成

数据预览#

如数据集的提供者已对数据文件进行了维护,那么您可以通过数据预览标签,快速浏览前1000条数据,方便您对数据内容有更直观的掌握。

数据集文件#

您可以通过数据集文件标签,查看当前数据集下所有的文件和版本信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值