助力AI淘金：机器学习公开数据集

最新推荐文章于 2024-08-15 14:41:52 发布

新缸中之脑

最新推荐文章于 2024-08-15 14:41:52 发布

阅读量681

点赞数

分类专栏：机器学习人工智能机器学习文章标签：机器学习人工智能数据数据集

机器学习同时被 3 个专栏收录

34 篇文章 9 订阅

订阅专栏

机器学习

27 篇文章 4 订阅

订阅专栏

人工智能

11 篇文章 0 订阅

订阅专栏

建立人工智能（AI）或基于机器学习的系统从未像今天这样容易。 TensorFlow ， Torch和Spark等先进的开源工具的无处不在，加上AWS ， Google Cloud或其他云提供商提供的大量计算能力，意味着你喝着咖啡，用笔记本电脑就可以训练一个高端的模型。

虽然不属于AI炒作的核心，但AI革命的无名英雄是数据 - 大量的由那些领先的研究机构和企业标注和注解过的数据，而这些机构，已经意识到数据的民主化是加速人工智能化的必要步骤。

然而，大多数涉及机器学习或AI的产品，在很大程度上依赖于通常不公开的专有数据集，因为这提供了隐含的可防御性。

有一个说法是，你很难确定哪些公共数据集是有用的，哪些可以用于概念验证，哪些有益于你在收集自己的专有数据之前，先对潜在的产品或功能进行验证。

重要的是要记住，在一个数据集上的出色表现并不能保证你的机器学习系统在实际的生产环境中表现良好。 AI领域的大多数人都忘了，构建新的AI解决方案或产品的最难的部分不是算法，而是数据的收集和标注。标准数据集可以用作验证，也可以作为构建更加定制化的解决方案的一个很好的起点。

这个礼拜，我和几位机器学习领域的专家讨论了这一问题。为了让你的工作轻松一点，我们收集了一些你在AI领域中不可能不知道的开放数据集的（不一定客观的）列表。

计算机视觉

MNIST ：常用于作为模型的验证基线。 25x25的黑白手写数字图像数据集。这个数据集很简单，因此你的模型在MNIST上跑的通，并不意味着它就是有效的。
CIFAR 10和CIFAR 100 ：32x32彩色图像。现在用的不多了，不过也可以用来作为你模型验证的基准数据。
ImageNet ：新一代算法事实上的标准图像数据集。许多提供图像API服务的公司，通过其REST接口所提供的标注信息，与WordNet的1000种分类非常类似。
LSUN ：常用于场景理解及相关的辅助任务，如房间布局估计，重要性预测等。
PASCAL VOC ：常用于通用的图像分割/分类任务 - 对构建真实世界的图像注释并不十分有用，但作为基线也不错。
SVHN ：来自Google街景的房屋号码数据集。可以将其视为自然环境下的递归版MNIST。
MS COCO ：常用于通用的图像理解和字幕生成任务。
Visual Genome: 非常详细的视觉知识库，包含大约100K个经过深度标注的图像。
Labeled Faces in the Wild：自然环境下的标注人脸集，已经裁剪过。数据集中的一部分人有两个图像 - 可以用来训练人脸匹配系统。

自然语言

Text Classification ：用于文本分类的八个数据集。常用来作为文本分类算法的基线。样本量从120K到3.6M不等，分类数量从2到14不等。其中包括来自DBPedia，Amazon，Yelp，Yahoo！，搜狗和AG的数据集。
[WikiText] ：高质量的维基百科文章的大型语言建模语料库，由Salesforce MetaMind整合。
Question Pairs：Quora发布的第一个包含重复/语义相似标注的数据集。
SQUAD ：斯坦福大学的问答数据集 - 涉及广泛主题的问答和阅读理解数据集，每个问题的答案都是单独一段文字。
CMU Q/A ：根据维基百科文章的难度分级，手工生成的真实问/答对。
Maluuba ：用于有状态自然语言理解研究的复杂的人工数据集。
Billion Words ：大型通用语言建模数据集。通常用于训练word2vec或GloVe等分布式单词表示。
Common Crawl：全网PB级抓取 - 最常用于学习单词嵌入。可从Amazon S3免费获取。作为抓取WWW的网络数据集也是有用的。
bAbi ：来自FAIR（facebookd ai research）的阅读理解和问答数据集。
The Children’s Book Test ：从古腾堡计划提供的儿童图书中提取的（问题+上下文，答案）方面的基准数据集。对问答、阅读理解、真实性查询这方面的任务很有用。
Stanford Sentiment Treebank：标准情感数据集，每个句子分析树的每个节点，都有细粒度的情感注解。
20 Newsgroups：用于文本分类的经典数据集之一，通常用作单纯分类算法的基准或者作为信息抽取或索引算法的验证。
-Reuters ：比较早期，纯粹用于分类问题的来自newswire的数据集。常用于教程中。
IMDB ：比较早期，相对较小的二元情感分类数据集。随着人们倾向于使用大一点的数据集，对它也逐渐失去兴趣了。
UCI’s Spambase ：来自著名的UCI机器学习库的一个早期的、经典的垃圾邮件数据集。由于其中包括数据集构建的细节，这可能是学习个性化垃圾邮件过滤的一个有趣的基准。

语音

大多数语音识别数据集都是专有的 - 这些数据对于企业具有很大的价值。该领域可用的大多数数据集都是相当古老的。

2000 HUB5 English ：英文语音数据集，百度在最近发表的深度语音论文中经常使用它。
LibriSpeech ：包含文本和语音的有声读物数据集。近500小时多个说话人朗读的清晰语音，按书的章节进行组织。
VoxForge ：清晰的英语方言语音数据集，如果你需要解决对不同口音或语调的鲁棒性问题，那么它非常有用。
TIMIT ：只包含英文的语音识别数据集。
CHIME ：噪音语音识别挑战数据集。数据集包含真实、模拟和干净的录音。在4个嘈杂的地点，4个说话人的近9000个真实录音。
TED-LIUM ： TED演讲的音频转录。 1495 个TED演讲的音频及对应的转录文本。

网络和图

Amazon Co-Purchasing and Amazon Reviews ：从亚马逊的“ 买了这个也买了…的用户 ”部分抓取的数据，以及相关产品的亚马逊评论数据。很适合用于推荐系统。
Friendster Social Network：在转型为游戏网站之前，Friendster以103,750,348位用户的好友列表的形式发布的匿名数据。