什么是数据集

一、数据集

是机器学习和统计建模中使用的一个术语,它指的是一组数据,这些数据被用来训练和评估模型。数据集可以包含各种类型的数据,例如数值数据、文本、图像、音频或视频。

数据集通常分为几个部分:训练集、验证集和测试集。

在机器学习中:

1、训练数据集(training dataset):

训练数据集是样本内的数据,用于样本集的建模。

2、验证数据集(validation dataset)

验证数据集是样本外的数据,用于检验模型或评估模型表现。

任何一种模型都既要有训练数据集也要有验证数据集,才能确保模型表现得更好。

在机器学习的算法中,一般两个数据集都是随机指定的。比如在总体样本中随机指定70%的数据是训练数据集,剩下30%的数据是验证数据集。

3、测试数据集(Test dataset)

测试数据集则用于评估模型的最终性能。它是一组在训练过程中未使用的数据,为模型的预测性能提供了无偏的评估。

二、一些适合初学者的数据集示例

1、Iris 数据集:一个经典的多类分类问题,包含几种鸢尾花的特征数据。

findata-科学数据搜索引擎

https://findata.cn/search?search=Iris%E6%95%B0%E6%8D%AE%E9%9B%86&page=1

五号雷达_专注于发现数据集的引擎

DatasetSearch -专注于数据集搜索引擎

https://datasetsearch.research.google.com/search?src=3&query=iris&docid=L2cvMTFzM3pwMWZkcQ%3D%3D

2 、MNIST 数据集:手写数字识别的图像数据集,适合初学者练习图像识别和深度学习。

https://datasetsearch.research.google.com/search?src=2&query=mnist&docid=L2cvMTF5M21xOXRrbQ%3D%3D

https://findata.cn/search?search=MNIST&page=1

https://www.5radar.com/search?key=7a318a8752924b42aec17c7ff98c7496

3、Titanic 数据集:包含泰坦尼克号乘客的数据,用于生存预测的二元分类问题。

https://findata.cn/search?search=Titanic&page=1

https://www.5radar.com/search?key=7399cbd2888243218f06558c3abacbc7

https://datasetsearch.research.google.com/search?src=0&query=Titanic%20&docid=L2cvMTFsajE2dnEydA%3D%3D

  • 7
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值