数据集搜索

1. 数据集和数据集的分类

数据集是一组数据的集合,通常用于机器学习、统计分析、数据挖掘等领域,帮助算法训练、模型验证和评估。可以是各种形式的数据,如表格、图像、机器学习相关的文件等。

根据在机器学习中的应用,数据集可以分为训练集、验证集和测试集。

训练集:用于训练模型

验证集:训练过程中,用于调整超参和选择最佳模型

测试集:训练完成后,用于评估最终模型的准确率

2. 数据集收集

数据集的来源多种多样,涵盖了不同的领域和用途。以下是一些常见的数据集来源:

  • 公开数据集

Kaggle:一个广泛使用的数据科学和机器学习竞赛平台,提供大量开源数据集,涵盖图像、文本、时间序列等多种类型。(https://www.kaggle.com/datasets

UCI机器学习库:UCI机器学习库是一个历史悠久的机器学习数据集存储库,包含多个用于教学和研究的数据集。(https://archive.ics.uci.edu/datasets.html)

Paper(比较重要):

1. 明确自己的目标任务,去搜索相关的论文。这里给出一个网站叫做PaperWithCode。(Machine Learning Datasets | Papers With Code) 

2. Google 一下相关方向的 Summary Paper。Summary Paper中常含有这个领域常用的一些数据集。下面给出一个例子:

任务:文档去阴影算子

               

  • 科研机构和政府部门

政府数据:data.gov(美国)、data.gov.uk(英国)、data.gov.cn(中国)

科研机构:哈佛大学Dataverse、斯坦福大学的Stanford Large Network Dataset Collection

  • 企业和行业数据

技术公司:Google的开源数据集(https://toolbox.google.com/data)、Microsoft的MS MARCO数据集(https://msropendata.com/)、亚马逊数据集(https://registry.opendata.aws/

  • 搜索一些深度学习框架的开源AI社区,里面会有大量的项目、相关的数据集。
    eg: PaddlePaddle, MMLab, Huggingface(NLP用的较多)。

其他方式有:开源社区、客户数据

3. 数据集的评估标准

区分数据集的好坏对数据科学和机器学习项目的成功至关重要。以下是评估数据集质量的一些关键标准:

  • 数据完整性:数据集包含所有情况,异常情况是否处理得当。
  • 数据准确性:数据真实反映了显示情况,以及数据标注的精度。
  • 数据多样性:数据涵盖了足够的变异性和多样性
  • 数据量:数据量足够进行模型的训练和评估。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值