建立人工智能(AI
)或基于机器学习的系统从未像今天这样容易。 TensorFlow
, Torch
和Spark
等先进的开源工具的无处不在,加上AWS
, Google Cloud
或其他云提供商提供的大量计算能力,意味着你喝着咖啡,用笔记本电脑就可以训练一个高端的模型。
虽然不属于AI炒作的核心,但AI革命的无名英雄是数据 - 大量的由那些领先的研究机构和企业标注和注解过的数据,而这些机构,已经意识到数据的民主化是加速人工智能化的必要步骤。
然而,大多数涉及机器学习或AI的产品,在很大程度上依赖于通常不公开的专有数据集,因为这提供了隐含的可防御性 。
有一个说法是,你很难确定哪些公共数据集是有用的,哪些可以用于概念验证,哪些有益于你在收集自己的专有数据之前,先对潜在的产品或功能进行验证。
重要的是要记住,在一个数据集上的出色表现并不能保证你的机器学习系统在实际的生产环境中表现良好。 AI
领域的大多数人都忘了,构建新的AI解决方案或产品的最难的部分不是算法, 而是数据的收集和标注 。 标准数据集可以用作验证,也可以作为构建更加定制化的解决方案的一个很好的起点。
这个礼拜,我和几位机器学习领域的专家讨论了这一问题。 为了让你的工作轻松一点,我们收集了一些你在AI
领域中不可能不知道的开放数据集的(不一定客观的)列表。
计算机视觉
- MNIST :常用于作为模型的验证基线。
25x25
的黑白手写数字图像数据集。 这个数据集很简单,因此你的模型在MNIST
上跑的通,并不意味着它就是有效的。 - CIFAR 10和CIFAR 100 :
32x32
彩色图像。 现在用的不多了,不过也可以用来作为你模型验证的基准数据。 - ImageNet :新一代算法事实上的标准图像数据集。 许多提供图像
API
服务的公司,通过其REST
接口所提供的标注信息,与WordNet的1000
种分类非常类似。 - LSUN :常用于场景理解及相关的辅助任务,如房间布局估计,重要性预测等。
- PASCAL VOC :常用于通用的图像分割/分类任务 - 对构建真实世界的图像注释并不十分有用,但作为基线也不错。
- SVHN :来自
Google
街景的房屋号码数据集。 可以将其视为自然环境下的递归版MNIST
。 - MS COCO :常用于通用的图像理解和字幕生成任务。
- Visual Genome: 非常详细的视觉知识库,包含大约
100K
个经过深度标注的图像。 - Labeled Faces in the Wild:自然环境下的标注人脸集,已经裁剪过。数据集中的一部分人有两个图像 - 可以用来训练人脸匹配系统。
自然语言
- Text Classification :用于文本分类的八个数据集。 常用来作为文本分类算法的基线。 样本量从
120K
到3.6M
不等,分类数量从2
到14
不等。 其中包括来自DBPedia
,Amazon
,Yelp
,Yahoo!
,搜狗
和AG
的数据集。 - [WikiText] :高质量的维基百科文章的大型语言建模语料库,由Salesforce MetaMind整合。
- Question Pairs:
Quora
发布的第一个包含重复/语义相似标注的数据集。 - SQUAD :斯坦福大学的问答数据集 - 涉及广泛主题的问答和阅读理解数据集,每个问题的答案都是单独一段文字。
- CMU Q/A :根据维基百科文章的难度分级,手工生成的真实问/答对。
- Maluuba :用于有状态自然语言理解研究的复杂的人工数据集。
- Billion Words :大型通用语言建模数据集。 通常用于训练
word2vec
或GloVe
等分布式单词表示。 - Common Crawl:全网PB级抓取 - 最常用于学习单词嵌入。 可从Amazon S3免费获取 。 作为抓取
WWW
的网络数据集也是有用的。 - bAbi :来自
FAIR
(facebookd ai research
)的阅读理解和问答数据集。 - The Children’s Book Test :从古腾堡计划提供的儿童图书中提取的(问题+上下文,答案)方面的基准数据集。 对问答、阅读理解、真实性查询这方面的任务很有用。
- Stanford Sentiment Treebank:标准情感数据集,每个句子分析树的每个节点,都有细粒度的情感注解。
- 20 Newsgroups:用于文本分类的经典数据集之一,通常用作单纯分类算法的基准或者作为信息抽取或索引算法的验证。
-Reuters :比较早期,纯粹用于分类问题的来自newswire
的数据集。 常用于教程中。 - IMDB :比较早期,相对较小的二元情感分类数据集。 随着人们倾向于使用大一点的数据集,对它也逐渐失去兴趣了。
- UCI’s Spambase :来自著名的UCI机器学习库的一个早期的、经典的垃圾邮件数据集。 由于其中包括数据集构建的细节,这可能是学习个性化垃圾邮件过滤的一个有趣的基准。
语音
大多数语音识别数据集都是专有的 - 这些数据对于企业具有很大的价值。 该领域可用的大多数数据集都是相当古老的。
- 2000 HUB5 English :英文语音数据集,百度在最近发表的深度语音论文中经常使用它。
- LibriSpeech :包含文本和语音的有声读物数据集。 近
500
小时多个说话人朗读的清晰语音,按书的章节进行组织。 - VoxForge :清晰的英语方言语音数据集,如果你需要解决对不同口音或语调的鲁棒性问题,那么它非常有用。
- TIMIT :只包含英文的语音识别数据集。
- CHIME :噪音语音识别挑战数据集。 数据集包含真实、模拟和干净的录音。 在
4
个嘈杂的地点,4
个说话人的近9000
个真实录音。 - TED-LIUM : TED演讲的音频转录。
1495
个TED演讲的音频及对应的转录文本。
推荐和排名系统
- Netflix Challenge :首个主要的
Kaggle
风格的数据挑战。 - MovieLens :各种长度的电影评论数据 - 通常作为协同过滤算法的基线。
- Million Song Dataset:
Kaggle
上的大型的开源数据集,包含丰富的元数据,对于尝试混合式推荐系统的人来说非常有用。 - Last.fm :音乐推荐数据集,包含底层的社交网络数据,以及其它一些对混合式推荐系统有用的元数据。
网络和图
- Amazon Co-Purchasing and Amazon Reviews :从亚马逊的“ 买了这个也买了…的用户 ”部分抓取的数据,以及相关产品的亚马逊评论数据。 很适合用于推荐系统。
- Friendster Social Network:在转型为游戏网站之前,
Friendster
以103,750,348
位用户的好友列表的形式发布的匿名数据。
地理空间数据
- OpenStreetMap :使用免费许可协议的全球矢量数据。 它包括 (一个早期版本的)美国人口普查局的
TIGER
数据。 - Landsat8:整个地球表面的卫星照片,每隔几周更新一次。
- NEXRAD :美国境内使用多普勒雷达扫描的大气状况数据集。
人们经常认为,在一个数据集上解决了问题,就等价于拥有了一个深思熟虑的产品。 可以使用这些数据集作为验证或概念证明 ,但不要忘记测试或构建产品原型,然后获取新的、更现实的数据,以改善算法的运作。 成功的数据驱动型公司通常会从收集新的专有数据的能力中获得力量,从而以一种可以防御的方式提高其性能。
原文:Fueling the Gold Rush: The Greatest Public Datasets for AI