机器学习实战的数据集在哪找_在哪里找到很棒的机器学习数据集

本文探讨了如何找到高质量的机器学习数据集,提供了来源链接,并强调了数据集在机器学习项目中的重要性。
摘要由CSDN通过智能技术生成

机器学习实战的数据集在哪找

Good machine learning research starts with an exceptional dataset. There is no need to spend your evening crafting your own set of data in MySQL or, god forbid, Excel. Basically, anything from COVID-19 stats to Harry Potter spells (made it myself!) exists in a form of a database. You just need to find it.

优秀的机器学习研究始于出色的数据集。 无需花费时间在MySQL或Excel上手工制作自己的数据集。 基本上,从COVID-19的统计数据到哈利波特的咒语(自己动手做!)之类的任何东西都以数据库的形式存在。 您只需要找到它。

Let me help you — in this post, you will learn where to find datasets for machine learning research.

让我来帮助您-在这篇文章中,您将学习在哪里找到用于机器学习研究的数据集。

顶级通用ML数据集聚合器 (Top general ML dataset aggregators)

Image for post

Dataset aggregators collect thousands of databases for various purposes.

数据集聚合器出于各种目的收集了数千个数据库。

1. Kaggle (1. Kaggle)

Kaggle, being updated by enthusiasts every day, has one of the largest dataset libraries online.

Kaggle每天都会被发烧友更新,它拥有最大的在线数据集库之一。

Kaggle is a community-driven machine learning platform. It contains plenty of tutorials that cover hundreds of different real-life ML problems. It is true that quality may vary. However, all the data is completely free. You can also upload your own dataset there.

Kaggle是一个社区驱动的机器学习平台。 它包含许多教程,涵盖了数百种现实生活中的ML问题。 的确,质量可能会有所不同。 但是,所有数据都是完全免费的。 您也可以在那里上传自己的数据集。

2. Google数据集搜索 (2. Google Dataset Search)

Dataset Search is a reliable source of information for your research. It is convenient to sort datasets by:

数据集搜索是您研究的可靠信息来源。 通过以下方式对数据集进行排序很方便:

  • relevance,

    关联,
  • file format,

    文件格式,
  • license type,

    许可证类型
  • theme,

    主题,
  • time of last update.

    最后更新时间。

The datasets here are uploaded by international organizations such as the World Health Organization, Statista, and Harvard.

这里的数据集是由国际组织(例如世界卫生组织,Statista和哈佛大学)上传的。

3.在AWS上注册开放数据 (3. Registry of Open Data on AWS)

In the Registry of Open Data on AWS, anyone can share a dataset or find the one they need. You can do research based on the data you find with the help of Amazon data analytics tools. Among database creators, you will find Facebook Data for Good, NASA Space Act Agreement, and Space Telescope Science Institute.

AWS上的开放数据注册表中 ,任何人都可以共享一个数据集或找到他们需要的数据集。 您可以借助Amazon数据分析工具,根据找到的数据进行研究。 在数据库创建者中,您会找到Facebook善待数据,NASA太空法案协议和太空望远镜科学研究所。

4. Microsoft Azure公共数据集 (4. Microsoft Azure Public Datasets)

Azure Public Datasets have regularly updated databases for app developers and researchers. They contain U.S. Government data, other statistical and scientific data, and online service information that Microsoft collects about its users.

Azure公共数据集定期为应用程序开发人员和研究人员更新数据库。 它们包含Microsoft收集的有关其用户的美国政府数据,其他统计和科学数据以及在线服务信息。

Moreover, Azure offers a collection of tools that help you create cloud databases of your own, migrate your SQL workloads to Azure while maintaining complete SQL Server compatibility, and build data-driven mobile and web applications.

此外,Azure提供了一系列工具,可帮助您创建自己的云数据库,将SQL工作负载迁移到Azure,同时保持完整SQL Server兼容性以及构建数据驱动的移动和Web应用程序。

5. r /数据集 (5. r/datasets)

Image for post

In the datasets subreddit, anyone can publish their open-source databases. You can go there, find a cool dataset, and try to do something nice with it.

数据集 subreddit中,任何人都可以发布其开源数据库。 您可以去那里,找到一个很酷的数据集,然后尝试做一些不错的事情。

6. UCI机器学习存储库 (6. UCI Machine Learning Repository)

UCI offers 507 datasets that cover bank marketing, car evaluation, lung cancer diagnosis, and many other different subjects. You can sort the databases by:

UCI提供507个数据集,涵盖银行营销,汽车评估,肺癌诊断以及许多其他不同主题。 您可以通过以下方式对数据库进行排序:

  • default task,

    默认任务,
  • data type,

    数据类型,
  • area of application,

    应用领域
  • subject.

    学科。

7. CMU库 (7. CMU Libraries

  • 9
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值