keras自带的数据集

数据集

CIFAR10小图像分类

数据集包含50,000个32x32颜色训练图像,标记为10个类别,10,000个测试图像。

用法:

from keras.datasets import cifar10

(x_train, y_train), (x_test, y_test) = cifar10.load_data()
  • 返回:
    • 2个元组:
      • x_train,x_test:uint8具有形状(num_samples ,3,32,32)或(num_samples ,32,32,3)的RGB图像数据阵列,基于image_data_format后端设置channels_firstchannels_last分别设置。
      • y_train,y_test:uint8类别标签数组(范围为0-9的整数),其形状为(num_samples,)。

CIFAR100小图像分类

数据集包含50,000个32x32颜色训练图像,标记超过100个类别,以及10,000个测试图像。

用法:

from keras.datasets import cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')
  • 返回:

    • 2个元组:
      • x_train,x_test:uint8具有形状(num_samples ,3,32,32)或(num_samples ,32,32,3)的RGB图像数据阵列,基于image_data_format后端设置channels_firstchannels_last分别设置。
      • y_train,y_test:uint8具有形状(num_samples,)的类别标签数组。
  • 参数:

    • label_mode:“fine”或“coarse”。

IMDB电影评论情绪分类

来自IMDB的25,000部电影评论的数据集,标有情绪(正面/负面)。评论已经过预处理,每个评论都被编码为一系列单词索引(整数)。为方便起见,单词由数据集中的整体频率索引,因此例如整数“3”编码数据中第3个最频繁的单词。这允许快速过滤操作,例如:“仅考虑前10,000个最常见的单词,但消除前20个最常见的单词”。

作为惯例,“0”不代表特定单词,而是用于编码任何未知单词。

用法:

from keras.datasets import imdb

(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
                                                      num_words=None,
                                                      skip_top=0,
                                                      maxlen=None,
                                                      seed=113,
                                                      start_char=1,
                                                      oov_char=2,
                                                      index_from=3)
  • 返回:

    • 2个元组:
      • x_train,x_test:序列列表,它是索引列表(整数)。如果num_words参数是特定的,则最大可能索引值为num_words-1。如果指定了maxlen参数,则最大可能的序列长度为maxlen。
      • y_train,y_test:整数标签列表(1或0)。
  • 参数:

    • path:如果您没有本地数据(at '~/.keras/datasets/' + path),它将被下载到此位置。
    • num_words:整数或无。最常见的词汇需要考虑。任何不太频繁的单词将oov_char在序列数据中显示为值。
    • skip_top:整数。最常被忽略的词(它们将oov_char在序列数据中显示为值)。
    • maxlen:int。最大序列长度。任何更长的序列都将被截断。
    • 种子:int。用于可重复数据改组的种子。
    • start_char:int。序列的开头将标有此字符。设置为1,因为0通常是填充字符。
    • oov_char:int。这是因为切出字num_words 或skip_top限制将这个字符替换。
    • index_from:int。使用此索引和更高的索引实际单词。

路透社新闻专题主题分类

来自路透社的11,228条新闻专线的数据集,标注了46个主题。与IMDB数据集一样,每条线都被编码为一系列字索引(相同的约定)。

用法:

from keras.datasets import reuters

(x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz",
                                                         num_words=None,
                                                         skip_top=0,
                                                         maxlen=None,
                                                         test_split=0.2,
                                                         seed=113,
                                                         start_char=1,
                                                         oov_char=2,
                                                         index_from=3)

规范与IMDB数据集的规范相同,但增加了:

  • test_split:float。要用作测试数据的数据集的分数。

此数据集还提供用于编码序列的单词索引:

word_index = reuters.get_word_index(path="reuters_word_index.json")
  • 返回:一个字典,其中键是单词(str),值是索引(整数)。例如。word_index["giraffe"]可能会回来1234

  • 参数:

    • path:如果您没有本地(at '~/.keras/datasets/' + path)的索引文件,它将被下载到此位置。

MNIST手写数字数据库

数据集包含10个数字的60,000个28x28灰度图像,以及10,000个图像的测试集。

用法:

from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()
  • 返回:

    • 2个元组:
      • x_train,x_test:uint8具有形状的灰度图像数据阵列(num_samples,28,28)。
      • y_train,y_test:uint8数字标签数组(范围0-9中的整数),形状为(num_samples,)。
  • 参数:

    • path:如果您没有本地(at '~/.keras/datasets/' + path)的索引文件,它将被下载到此位置。

Fashion-MNIST时尚文章数据库

数据集包含10个时尚类别的60,000个28x28灰度图像,以及10,000个图像的测试集。该数据集可用作MNIST的替代品。班级标签是:

标签描述
0T恤/顶
1裤子
2拉过来
3连衣裙
4涂层
檀香
6衬衫
7运动鞋
8
9踝靴

用法:

from keras.datasets import fashion_mnist

(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()
  • 返回:
    • 2个元组:
      • x_train,x_test:uint8具有形状的灰度图像数据阵列(num_samples,28,28)。
      • y_train,y_test:uint8带有形状(num_samples,)的标签数组(范围0-9中的整数)。

波士顿住房价格回归数据集

数据集取自在卡内基梅隆大学维护的StatLib库。

在20世纪70年代后期,样本包含波士顿郊区周围不同位置的13种房屋属性。目标是一个地方房屋的中位数值(以k $计)。

用法:

from keras.datasets import boston_housing

(x_train, y_train), (x_test, y_test) = boston_housing.load_data()
  • 参数:

    • path:在本地缓存数据集的路径(相对于〜/ .keras / datasets)。
    • 种子:用于在计算测试分割之前对数据进行混洗的随机种子。
    • test_split:要保留为测试集的数据的一部分。
  • 返回: Numpy数组的元组:(x_train, y_train), (x_test, y_test)

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值