若是本文能帮助到大家,希望可以关注小编 并转发分享!(thanks)
现如今构建人工智能或机器学习系统比以往的时候更加容易。普遍存在的尖端开源工具如 TensorFlow、Torch 和 Spark,再加上通过 AWS 的大规模计算力、Google Cloud 或其他供应商的云计算,这些都意味着你可以在下午休闲时间使用笔记本电脑去训练出最前沿的机器学习模型。
数据集对于深度学习模型的重要性不言而喻,然而根据性质、类型、领域的不同,数据集往往散落在不同的资源平 台里,急需人们做出整理。
少了数据,我们的机器学习和深度学习模型什么也干不了。这么说吧,那些创建了数据集、让我们可以训练模型的 人,都是我们的英雄,虽然这些人常常并没有得到足够的感谢。让人庆幸的是,那批最有价值的数据集后来成了 「学术基准线」——被研究人员广泛引用,尤其在算法变化的对比上;不少名字则成为圈内外都耳熟能详的名 称,如 MNIST、CIFAR 10 以及 Imagenet 等。
如果您在研究中使用了这些数据集,我们希望您记得引用原始论文(我们已经在表单中提供引用 链接);如果您将它们用作商业或教育项目的一部分,请考虑添加致谢文及数据集原链接。
我们之所以经常在教学中引用这些数据集,是因为它们就是学生们很有可能遇到的数据类型的绝佳例子,此外,学 生可以将自己的工作与引用这些数据集的学术成果进行对比,从而取得进步。此外,我们也会使用 Kaggle Competitions 数据集,Kaggle 的 public leaderboards 允许学生在世界最好的数据集里测试自己的模型,不过 Kaggle 数据集并不会在本次表单中出现。
图像分类领域
1)MNIST
经典的小型(28x28 像素)灰度手写数字数据集,开发于 20 世纪 90 年代,主要用于测试当时最复杂的模型;到 了今日,MNIST 数据集更多被视作深度学习的基础教材。fast.ai 版本的数据集舍弃了原始的特殊二进制格式,转 而采用标准的 PNG 格式,以便在目前大多数代码库中作为正常的工作流使用;如果您只想使用与原始同样的单输 入通道,只需在通道轴中选取单个切片即可。
引文:http://yann.lecun.com/exdb/publis/index.html#lecun-98
下载地址:https://s3.amazonaws.com/fast-ai-imageclas/mnist_png.tgz
2)CIFAR10
10 个类别,多达 60000 张的 32x32 像素彩色图像(50000 张训练图像和 10000 张测试图像),平均每种类别 拥有 6000 张图像。广泛用于测试新算法的性能。fast.ai 版本的数据集舍弃了原始的特殊二进制格式,转而采用
标准的 PNG 格式,以便在目前大多数代码库中作为正常的工作流使用。
引文:https://www.cs.toronto.edu/~kriz/learning-features-2009-TR.pdf
下载地址:https://s3.amazonaws.com/fast-ai