keras自带的数据集

最新推荐文章于 2024-04-10 20:50:55 发布

JiangHe1997

最新推荐文章于 2024-04-10 20:50:55 发布

阅读量1k

点赞数

分类专栏： tensorflow

本文链接：https://blog.csdn.net/weixin_41066584/article/details/92393967

版权

tensorflow 专栏收录该内容

8 篇文章 1 订阅

订阅专栏

数据集

CIFAR10小图像分类

数据集包含50,000个32x32颜色训练图像，标记为10个类别，10,000个测试图像。

用法：

from keras.datasets import cifar10

(x_train, y_train), (x_test, y_test) = cifar10.load_data()

返回：
- 2个元组：
  - x_train，x_test：uint8具有形状（num_samples ，3,32,32）或（num_samples ，32,32,3）的RGB图像数据阵列，基于image_data_format后端设置channels_first或channels_last分别设置。
  - y_train，y_test：uint8类别标签数组（范围为0-9的整数），其形状为（num_samples，）。

CIFAR100小图像分类

数据集包含50,000个32x32颜色训练图像，标记超过100个类别，以及10,000个测试图像。

用法：

from keras.datasets import cifar100

(x_train, y_train), (x_test, y_test) = cifar100.load_data(label_mode='fine')

返回：
- 2个元组：
  - x_train，x_test：uint8具有形状（num_samples ，3,32,32）或（num_samples ，32,32,3）的RGB图像数据阵列，基于image_data_format后端设置channels_first或channels_last分别设置。
  - y_train，y_test：uint8具有形状（num_samples，）的类别标签数组。
参数：
- label_mode：“fine”或“coarse”。

IMDB电影评论情绪分类

来自IMDB的25,000部电影评论的数据集，标有情绪（正面/负面）。评论已经过预处理，每个评论都被编码为一系列单词索引（整数）。为方便起见，单词由数据集中的整体频率索引，因此例如整数“3”编码数据中第3个最频繁的单词。这允许快速过滤操作，例如：“仅考虑前10,000个最常见的单词，但消除前20个最常见的单词”。

作为惯例，“0”不代表特定单词，而是用于编码任何未知单词。

用法：

from keras.datasets import imdb

(x_train, y_train), (x_test, y_test) = imdb.load_data(path="imdb.npz",
                                                      num_words=None,
                                                      skip_top=0,
                                                      maxlen=None,
                                                      seed=113,
                                                      start_char=1,
                                                      oov_char=2,
                                                      index_from=3)

返回：
- 2个元组：
  - x_train，x_test：序列列表，它是索引列表（整数）。如果num_words参数是特定的，则最大可能索引值为num_words-1。如果指定了maxlen参数，则最大可能的序列长度为maxlen。
  - y_train，y_test：整数标签列表（1或0）。
参数：
- path：如果您没有本地数据（at '~/.keras/datasets/' + path），它将被下载到此位置。
- num_words：整数或无。最常见的词汇需要考虑。任何不太频繁的单词将oov_char在序列数据中显示为值。
- skip_top：整数。最常被忽略的词（它们将oov_char在序列数据中显示为值）。
- maxlen：int。最大序列长度。任何更长的序列都将被截断。
- 种子：int。用于可重复数据改组的种子。
- start_char：int。序列的开头将标有此字符。设置为1，因为0通常是填充字符。
- oov_char：int。这是因为切出字num_words 或skip_top限制将这个字符替换。
- index_from：int。使用此索引和更高的索引实际单词。

路透社新闻专题主题分类

来自路透社的11,228条新闻专线的数据集，标注了46个主题。与IMDB数据集一样，每条线都被编码为一系列字索引（相同的约定）。

用法：

from keras.datasets import reuters

(x_train, y_train), (x_test, y_test) = reuters.load_data(path="reuters.npz",
                                                         num_words=None,
                                                         skip_top=0,
                                                         maxlen=None,
                                                         test_split=0.2,
                                                         seed=113,
                                                         start_char=1,
                                                         oov_char=2,
                                                         index_from=3)

规范与IMDB数据集的规范相同，但增加了：

test_split：float。要用作测试数据的数据集的分数。

此数据集还提供用于编码序列的单词索引：

word_index = reuters.get_word_index(path="reuters_word_index.json")

返回：一个字典，其中键是单词（str），值是索引（整数）。例如。word_index["giraffe"]可能会回来1234。
参数：
- path：如果您没有本地（at '~/.keras/datasets/' + path）的索引文件，它将被下载到此位置。

MNIST手写数字数据库

数据集包含10个数字的60,000个28x28灰度图像，以及10,000个图像的测试集。

用法：

from keras.datasets import mnist

(x_train, y_train), (x_test, y_test) = mnist.load_data()

返回：
- 2个元组：
  - x_train，x_test：uint8具有形状的灰度图像数据阵列（num_samples，28,28）。
  - y_train，y_test：uint8数字标签数组（范围0-9中的整数），形状为（num_samples，）。
参数：
- path：如果您没有本地（at '~/.keras/datasets/' + path）的索引文件，它将被下载到此位置。

Fashion-MNIST时尚文章数据库

数据集包含10个时尚类别的60,000个28x28灰度图像，以及10,000个图像的测试集。该数据集可用作MNIST的替代品。班级标签是：

标签	描述
0	T恤/顶
1	裤子
2	拉过来
3	连衣裙
4	涂层
五	檀香
6	衬衫
7	运动鞋
8	袋
9	踝靴

用法：

from keras.datasets import fashion_mnist

(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

返回：
- 2个元组：
  - x_train，x_test：uint8具有形状的灰度图像数据阵列（num_samples，28,28）。
  - y_train，y_test：uint8带有形状（num_samples，）的标签数组（范围0-9中的整数）。

波士顿住房价格回归数据集

数据集取自在卡内基梅隆大学维护的StatLib库。

在20世纪70年代后期，样本包含波士顿郊区周围不同位置的13种房屋属性。目标是一个地方房屋的中位数值（以k $计）。

用法：

from keras.datasets import boston_housing

(x_train, y_train), (x_test, y_test) = boston_housing.load_data()

参数：
- path：在本地缓存数据集的路径（相对于〜/ .keras / datasets）。
- 种子：用于在计算测试分割之前对数据进行混洗的随机种子。
- test_split：要保留为测试集的数据的一部分。
返回： Numpy数组的元组：(x_train, y_train), (x_test, y_test)。

JiangHe1997

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
keras自带的数据集

数据集CIFAR10小图像分类数据集包含50,000个32x32颜色训练图像，标记为10个类别，10,000个测试图像。用法：from keras.datasets import cifar10(x_train, y_train), (x_test, y_test) = cifar10.load_data()返回： 2个元组： x_train，x_test：ui...
复制链接

扫一扫