深度学习的一些数据集介绍

最新推荐文章于 2024-06-18 17:15:33 发布

One__Coder

最新推荐文章于 2024-06-18 17:15:33 发布

阅读量5.7k

点赞数

分类专栏： Machine Learning

本文链接：https://blog.csdn.net/github_37973614/article/details/81629134

版权

本文介绍了几种常见的深度学习图像处理数据集，包括MNIST、MS-COCO、ImageNet、Open Images Dataset、CIFAR-10和CIFAR-100，涵盖了各种图像识别、分割和检测任务。每个数据集的特点、规模和最新技术成果均有涉及。

摘要由CSDN通过智能技术生成

数据集分为三类：图像处理相关数据集，自然语言处理相关数据集和语音处理相关数据集。参考：here

以下主要是图像处理相关数据集。

1、mnist：详情

MNIST数据来自美国国家标准与技术研究所，National Institute of Standards and Technology（NIST）训练集（training set）来自250不同的人手写的数字构成，其中50%是高中学生，50%来自人口普查局（the Census Bureau）的工作人员。测试集（test set）也是同样比例的手写数字数据。

共分为四个文件：

train-images-idx3-ubyte.gz	training set images(9912422 bytes)，55000张训练图片，5000张验证图片，共60000张
train-labels-idx1-ubyte.gz	training set labels(28881 bytes)，
t10k-images-idx3-ubyte.gz	test set images(1648877 bytes)，10000张图片
t10k-labels-idx1-utype.gz	test set labels(4542 bytes)，

数据是IDX文件格式，是一种用来存储向量与多维度矩阵的文件格式。基本格式如下：

TRAINING SET IMAGE FILE (train-images-idx3-ubyte):
    [offset] [type]          [value]          [description]
    0000     32 bit integer  0x00000803(2051) magic number
    0004     32 bit integer  60000            number of images
    0008     32 bit integer  28               number of rows
    0012     32 bit integer  28

最低0.47元/天解锁文章

One__Coder

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
3
评论
深度学习的一些数据集介绍

数据集分为三类：图像处理相关数据集，自然语言处理相关数据集和语音处理相关数据集。参考：here以下主要是图像处理相关数据集。1、mnist：详情MNIST数据来自美国国家标准与技术研究所，National Institute of Standards and Technology（NIST）训练集（training set）来自250不同的人手写的数字构成，其中50%是高中学生，50%...
复制链接

扫一扫

专栏目录