keras自带的数据集

最新推荐文章于 2024-07-25 15:01:40 发布

Duyuankai1992

最新推荐文章于 2024-07-25 15:01:40 发布

阅读量9.2k

点赞数 6

分类专栏： Keras 文章标签： kernel 数据

Keras 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

CIFAR10小图像分类

数据集50,000张32x32彩色训练图像，标注超过10个类别，10,000张测试图像。

用法：

from keras.datasets import cifar10

(x_train, y_train), (x_test, y_test) = cifar10.load_data()

返回：
- 2元组：
  - x_train，x_test：具有形状（num_samples ，3，32，32）的RGB图像数据的uint8数组。
  - y_train，y_test：uint8具有形状（num_samples，）的类别标签数组（范围0-9中的整数）。

CIFAR100小图像分类

数据集50,000张32x32彩色训练图像，标注超过100个类别，10,000张测试图像。

用法：

from keras.datasets import cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')

返回：
- 2元组：
  - x_train，x_test：具有形状（num_samples ，3，32，32）的RGB图像数据的uint8数组。
  - y_train，y_test：uint8带有形状（num_samples，）的类别标签数组。
参数：
- label_mode：“好”或“粗糙”。

IMDB电影评论情绪分类

数据集来自IMDB的2.5万部电影评论，以情绪（正面/负面）标记。评论已被预处理，并且每个评论被编码为一系列词索引（整数）。为了方便起见，词汇通过数据集中的整体频率进行索引，例如整数“3”对数据中第三个最频繁的词进行编码。这允许快速过滤操作，例如：“只考虑前10000个最常用的词，但是排除前20个最常见的词”。

作为惯例，“0”不代表特定的单词，而是用于编码任何未知的单词。

用法：

from keras.datasets import imdb

(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
                                                      num_words=None,
                                                      skip_top=0,
                                                      maxlen=None,
                                                      seed=113,
                                                      start_char=1,
                                                      oov_char=2,
                                                      index_from=3)

返回：
- 2元组：
  - x_train，x_test：序列列表，索引列表（整数）。如果num_words参数是特定的，则可能的最大索引值是num_words-1。如果指定了maxlen参数，则可能的最大序列长度是maxlen。
  - y_train，y_test：整数标签列表（1或0）。
参数：
- 路径：如果你本地没有数据（at '~/.keras/datasets/' + path），它将被下载到这个位置。
- num_words：整数或无。考虑最常用的词汇。任何不太频繁的单词将作为oov_char序列数据中的值出现。
- skip_top：整数。要忽略的最常见的单词（它们将oov_char在序列数据中显示为值）。
- maxlen：int。最大序列长度。任何更长的序列将被截断。
- seed：int。用于可重现数据混洗的种子。
- start_char：int。一个序列的开始将被标记为这个字符。设为1，因为0通常是填充字符。
- oov_char：int。由于num_words 或skip_top限制而被删除的词将被替换为这个字符。
- index_from：int。用这个索引和更高的索引实际的单词。

路透社newswire话题分类

来自路透社的11,228条新闻数据集标有46个主题。与IMDB数据集一样，每条线都被编码为一系列字索引（相同的约定）。

用法：

from keras.datasets import reuters

(x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz",
                                                         num_words=None,
                                                         skip_top=0,
                                                         maxlen=None,
                                                         test_split=0.2,
                                                         seed=113,
                                                         start_char=1,
                                                         oov_char=2,
                                                         index_from=3)

规格与IMDB数据集的规格相同，但增加了：

test_split：float。要用作测试数据的数据集的分数。

该数据集还提供了用于编码序列的字索引：

word_index = reuters.get_word_index(path="reuters_word_index.json")

返回：一个字典，其中键是单词（str），值是索引（整数）。例如。word_index["giraffe"]可能会返回1234。
参数：
- 路径：如果你本地没有索引文件（at '~/.keras/datasets/' + path），它将被下载到这个位置。

手写数字的MNIST数据库

数据集包含10个数字的60,000个28x28灰度图像，以及10,000个图像的测试集。

用法：

from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

返回：
- 2元组：
  - x_train，x_test：uint8具有形状（num_samples，28,28）的灰度图像数据数组。
  - y_train，y_test：uint8带有形状（num_samples，）的数字标签数组（范围0-9中的整数）。
参数：
- 路径：如果你本地没有索引文件（at '~/.keras/datasets/' + path），它将被下载到这个位置。

时尚文章的时尚MNIST数据库

数据集包含10个时尚类别的60,000个28x28灰度图像，以及10,000个图像的测试集。这个数据集可以用作MNIST的直接替换。类标签是：

标签	描述
0	T恤/顶
1	裤子
2	拉过来
3	连衣裙
4	涂层
五	檀香
6	衬衫
7	运动鞋
8	袋
9	脚踝靴

用法：

from keras.datasets import fashion_mnist

(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

返回：
- 2元组：
  - x_train，x_test：uint8具有形状（num_samples，28,28）的灰度图像数据数组。
  - y_train，y_test：uint8带有形状（num_samples，）的标签数组（范围0-9中的整数）。

波士顿房屋价格回归数据集

数据集取自卡内基梅隆大学维护的StatLib库。

20世纪70年代后期，样本在波士顿郊区的不同位置包含13个房屋属性。目标是一个地点房屋的中位值（单位：k $）。

用法：

from keras.datasets import boston_housing

(x_train, y_train), (x_test, y_test) = boston_housing.load_data()

参数：
- 路径：本地缓存数据集的路径（相对于〜/ .keras /数据集）。
- seed（种子）：在计算测试分割之前用于混洗数据的随机种子。
- test_split：作为测试集保留的数据的一小部分。
返回： Numpy数组的元组：(x_train, y_train), (x_test, y_test)。