数据集搜索

feifeikon

已于 2024-09-13 18:15:54 修改

阅读量928

点赞数 11

文章标签：人工智能

于 2024-08-16 22:30:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/feifeikon/article/details/141271151

版权

1. 数据集和数据集的分类

数据集是一组数据的集合，通常用于机器学习、统计分析、数据挖掘等领域，帮助算法训练、模型验证和评估。可以是各种形式的数据，如表格、图像、机器学习相关的文件等。

根据在机器学习中的应用，数据集可以分为训练集、验证集和测试集。

训练集：用于训练模型

验证集：训练过程中，用于调整超参和选择最佳模型

测试集：训练完成后，用于评估最终模型的准确率

2. 数据集收集

数据集的来源多种多样，涵盖了不同的领域和用途。以下是一些常见的数据集来源：

公开数据集

Kaggle：一个广泛使用的数据科学和机器学习竞赛平台，提供大量开源数据集，涵盖图像、文本、时间序列等多种类型。（https://www.kaggle.com/datasets）

UCI机器学习库：UCI机器学习库是一个历史悠久的机器学习数据集存储库，包含多个用于教学和研究的数据集。（https://archive.ics.uci.edu/datasets.html）

Paper（比较重要）：

1. 明确自己的目标任务，去搜索相关的论文。这里给出一个网站叫做PaperWithCode。（Machine Learning Datasets | Papers With Code）

2. Google 一下相关方向的 Summary Paper。Summary Paper中常含有这个领域常用的一些数据集。下面给出一个例子：

任务：文档去阴影算子

科研机构和政府部门

政府数据：data.gov（美国）、data.gov.uk（英国）、data.gov.cn（中国）

科研机构：哈佛大学Dataverse、斯坦福大学的Stanford Large Network Dataset Collection

企业和行业数据

技术公司：Google的开源数据集（https://toolbox.google.com/data）、Microsoft的MS MARCO数据集（https://msropendata.com/）、亚马逊数据集（https://registry.opendata.aws/）

搜索一些深度学习框架的开源AI社区，里面会有大量的项目、相关的数据集。
eg: PaddlePaddle, MMLab, Huggingface(NLP用的较多)。

其他方式有：开源社区、客户数据

3. 数据集的评估标准

区分数据集的好坏对数据科学和机器学习项目的成功至关重要。以下是评估数据集质量的一些关键标准：

数据完整性：数据集包含所有情况，异常情况是否处理得当。
数据准确性：数据真实反映了显示情况，以及数据标注的精度。
数据多样性：数据涵盖了足够的变异性和多样性
数据量：数据量足够进行模型的训练和评估。

关注

11
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

feifeikon CSDN认证博客专家 CSDN认证企业博客

码龄3年

78: 原创

110万+: 周排名

3万+: 总排名

3万+: 访问

: 等级

931: 积分

369: 粉丝

87: 获赞

7: 评论

76: 收藏

私信

关注

热门文章

最新评论

代码随想录 day44 完全背包
看着夕阳敲代码: 博主写的非常好，文章干货满满，三联+关注！欢迎作者闲暇之余能回关我的博客进行指导，谢谢！
代码训练营第二天
CSDN-Ada助手: 非常棒的博客！看到你不断学习和思考的态度，我非常受鼓舞。关于这个题目，我想补充一些相关的知识，比如关于动态规划的思想和技巧，以及如何更好地理解二维矩阵。希望这些能对你的学习和成长有所帮助！继续加油，期待你的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
二刷数组总结
CSDN-Ada助手: 恭喜您又写了一篇优秀的博客！通过您的总结，我也学到了很多关于数组的知识。希望您能继续保持创作的热情，为我们带来更多精彩的内容。下一步，建议您可以尝试深入探讨数组在实际应用中的使用，或者结合其他数据结构进行比较分析，让读者更加深入地了解数组的优缺点。期待您的下一篇作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
代码训练营第三天
CSDN-Ada助手: 恭喜您写下了第四篇博客，这样的努力是值得赞赏的。在您的博客中，您描述了代码训练营的第三天，这让读者更好地了解了您的学习进程。在接下来的创作中，我建议您可以尝试分享一些自己的实践经验，或者是对所学知识的一些深入探讨。期待您的下一篇博客！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
代码训练营第6天
CSDN-Ada助手: 恭喜您完成了代码训练营第6天的学习并分享了您的心得体会。持续不断地创作和分享对于个人的成长和学习来说是非常重要的，希望您能够继续坚持下去。同时，建议您在下一篇博客中可以围绕学习中遇到的问题和解决方案进行探讨和分享，这样能够更好地帮助到其他读者，也能够锻炼自己的表达和思考能力。期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。