Keras内置数据集

目录

1、MNIST数字分类数据集

2、CIFAR10小图像分类数据集  

3、CIFAR100小图像分类数据集

 4、IMDB电影评论情感分类数据集

 参数说明

imdb_word_index.json

示例

 5、路透社新闻专线分类数据集

reuters_word_index.json

6、Fashion MNIST数据集

7、加州房价回归数据集 

参数说明 


1、MNIST数字分类数据集

包含60000个10位数的28x28灰度图像的数据集,以及10000个图像的测试集

1、加载本地mnist.npz格式数据

keras.datasets.mnist.load_data(path="mnist.npz")

2、 使用keras.datasets.mnist.load_data()函数加载MNIST数据集

(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()

#检查训练集和测试集的形状
assert x_train.shape == (60000, 28, 28)
assert x_test.shape == (10000, 28, 28)
assert y_train.shape == (60000,)
assert y_test.shape == (10000,)

2、CIFAR10小图像分类数据集  

这是一个由50000张32x32彩色训练图像和10000张测试图像组成的数据集,标记为10个类别。

标签类别
0airplane
1automobile
2bird
3cat
4deer
5dog
6frog
7horse
8ship
9truck

使用 keras.datasets.cifar10.load_data()加载数据集

(x_train, y_train), (x_test, y_test) = keras.datasets.cifar10.load_data()

#检查训练集和测试集的形状
assert x_train.shape == (50000, 32, 32, 3)
assert x_test.shape == (10000, 32, 32, 3)
assert y_train.shape == (50000, 1)
assert y_test.shape == (10000, 1)

3、CIFAR100小图像分类数据集

该数据集与 CIFAR-10 类似,不同之处在于它有 100 个类,每个类包含 600 张图像。每类有 500 张训练图像和 100 张测试图像。CIFAR-100 中的 100 个类分为 20 个超类。每个图像都带有一个“精细”标签(它所属的类)和一个“粗略”标签(它所属的超类)

超类类别
aquatic mammalsbeaver, dolphin, otter, seal, whale
fishaquarium fish, flatfish, ray, shark, trout
flowersorchids, poppies, roses, sunflowers, tulips
food containersbottles, bowls, cans, cups, plates
fruit and vegetablesapples, mushrooms, oranges, pears, sweet peppers
household electrical devicesclock, computer keyboard, lamp, telephone, television
household furniturebed, chair, couch, table, wardrobe
insectsbee, beetle, butterfly, caterpillar, cockroach
large carnivoresbear, leopard, lion, tiger, wolf
large man-made outdoor thingsbridge, castle, house, road, skyscraper
large natural outdoor scenescloud, forest, mountain, plain, sea
large omnivores and herbivorescamel, cattle, chimpanzee, elephant, kangaroo
medium-sized mammalsfox, porcupine, possum, raccoon, skunk
non-insect invertebratescrab, lobster, snail, spider, worm
peoplebaby, boy, girl, man, woman
reptilescrocodile, dinosaur, lizard, snake, turtle
small mammalshamster, mouse, rabbit, shrew, squirrel
treesmaple, oak, palm, pine, willow
vehicles 1bicycle, bus, motorcycle, pickup truck, train
vehicles 2lawn-mower, rocket, streetcar, tank, tractor

 使用 keras.datasets.cifar100.load_data()加载数据集 

(x_train, y_train), (x_test, y_test) = keras.datasets.cifar100.load_data()

#检查训练集和测试集的形状
assert x_train.shape == (50000, 32, 32, 3)
assert x_test.shape == (10000, 32, 32, 3)
assert y_train.shape == (50000, 1)
assert y_test.shape == (10000, 1)

 4、IMDB电影评论情感分类数据集

这是来自IMDB的25000条电影评论的数据集,按情绪(积极/消极)进行标记。评论已经过预处理,每个评论都被编码为单词索引(整数)列表。

keras.datasets.imdb.load_data(
    path="imdb.npz",
    num_words=None,
    skip_top=0,
    maxlen=None,
    seed=113,
    start_char=1,
    oov_char=2,
    index_from=3,
    **kwargs
)
 参数说明
  • path:数据存储的位置。
  • num_words:integer或None。单词根据它们出现的频率(在训练集中)进行排名,并且只保留最频繁的num_Words单词。任何不太频繁的单词都将在序列数据中显示为oov_char值。如果“无”,则保留所有单词。默认为“无”。
  • skip_top:跳过前N个最频繁出现的单词(可能没有信息)。这些单词将在数据集中显示为oov_char值。当为0时,不跳过任何单词。默认值为0。
  • maxlen:int或None。最大序列长度。任何较长的序列都将被截断。无,意味着没有截断。默认为“无”。
  • seed:int,用于可再现数据混洗的种子。
  • start_char:int。序列的开头将用这个字符标记。0通常是填充字符。默认值为1。
  • oov_char:int,词汇表外的字符。由于num_Words或skip_top限制而被剪切掉的单词将被替换为此字符。
  • index_from:int,使用此索引或更高的索引实际单词。
imdb_word_index.json

单词索引词典。键是字符串,值是它们的索引

使用keras.datasets.imdb.get_word_index函数加载imdb_word_index.json

keras.datasets.imdb.get_word_index(path="imdb_word_index.json")
示例
# 导入Keras库中的IMDB数据集
import keras.datasets.imdb

# 设置起始字符的索引为1
start_char = 1

# 设置未知字符的索引为2
oov_char = 2

# 设置索引从3开始
index_from = 3

# 使用默认参数加载IMDB数据集的训练数据,并只获取训练序列(不获取测试序列)
(x_train, _), _ = keras.datasets.imdb.load_data(
    start_char=start_char, oov_char=oov_char, index_from=index_from
)

# 获取单词到索引的映射文件
word_index = keras.datasets.imdb.get_word_index()

# 反转单词索引,得到一个将索引映射到单词的字典
# 并将`index_from`添加到索引中,以与`x_train`同步
inverted_word_index = dict(
    (i + index_from, word) for (word, i) in word_index.items()
)

# 更新`inverted_word_index`,包含`start_char`和`oov_char`
inverted_word_index[start_char] = "[START]"
inverted_word_index[oov_char] = "[OOV]"

# 解码数据集中的第一个序列
decoded_sequence = " ".join(inverted_word_index[i] for i in x_train[0])

 5、路透社新闻专线分类数据集

这是一个由路透社11228条新闻专线组成的数据集,标签超过46个主题。

keras.datasets.reuters.load_data(
    path="reuters.npz",
    num_words=None,
    skip_top=0,
    maxlen=None,
    test_split=0.2,
    seed=113,
    start_char=1,
    oov_char=2,
    index_from=3,
)

 参数说明

  • path:指定了保存数据的npz文件路径,这里设置为"reuters.npz"。
  • num_words:用于指定要保留的单词数量,设置为None表示保留所有单词。
  • skip_top用于指定要跳过的最常见的单词数量,设置为0表示不跳过任何单词。
  • maxlen:用于指定每个输入序列的最大长度,设置为None表示使用默认值。
  • test_split:参数用于指定测试集所占的比例,设置为0.2表示测试集占20%。
  • seed:参数用于指定随机数生成器的种子,设置为113以确保结果可重复。
  • start_charoov_char:分别用于指定未知单词的起始字符和未知单词的输出字符,设置为1和2。
  • index_from:参数用于指定索引的起始值,设置为3表示从3开始编号。
reuters_word_index.json

检索一个dict,将单词映射到路透社数据集中的索引。实际的单词索引从3开始,保留了3个索引:0(填充)、1(开始)、2(oov)。例如,“the”的单词索引为1,但在实际的训练数据中,“the”的索引将为1+3=4。反之亦然,要使用此映射将训练数据中的单词索引翻译回单词,索引需要减去3。

使用keras.datasets.reuters.get_word_index加载imdb_word_index.json

keras.datasets.reuters.get_word_index(path="reuters_word_index.json")

6、Fashion MNIST数据集

这是一个由10个时尚类别的60000张28x28灰度图像组成的数据集,以及10000张图像的测试集

标签类别
0T-shirt/top
1Trouser
2Pullover
3Dress
4Coat
5Sandal
6Shirt
7Sneaker
8Bag
9Ankle boot

 使用fashion_mnist.load_data()加载

(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

#检查测试集和训练集
assert x_train.shape == (60000, 28, 28)
assert x_test.shape == (10000, 28, 28)
assert y_train.shape == (60000,)
assert y_test.shape == (10000,)

7、加州房价回归数据集 

这是一个连续回归数据集,包含20640个样本,每个样本有8个特征。目标变量是一个标量:加利福尼亚地区的房屋中值,单位为美元。

使用keras.datasets.california_housing.load_data加载

keras.datasets.california_housing.load_data(
    version="large", path="california_housing.npz", test_split=0.2, seed=113
)
参数说明 
  • version:“小”或“大”。小版本包含600个样本,大版本包含20640个样本。
  • path:本地数据集的路径。
  • testsplit:作为测试集保留的数据的一部分。
  • seed:在计算测试分割之前对数据进行混洗的随机种子。
  • 15
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Keras印刷体数据集是专门为机器学习任务开发的一个包含印刷体字符图像的数据集。它通常用于训练和验证神经网络模型,以识别和分类印刷体字符。 该数据集中的图像以灰度图像的形式呈现,每个字符图像的大小相同。一般来说,数据集中的每个图像都包含单个字符,比如数字、字母或符号。 使用Keras框架,可以借助内置的函数和方法来加载和处理这个印刷体数据集。通过这些方法,我们可以将数据集划分为训练数据和测试数据,并对图像进行预处理,如调整大小、归一化或其他增强方法。这些预处理步骤可以提高模型的性能,并增强对印刷体字符的识别能力。 一旦数据集准备好后,我们可以使用Keras提供的各种神经网络模型来训练和验证数据。这些模型可以是常见的卷积神经网络(CNN)架构,如LeNet、AlexNet或VGG,也可以是更先进的架构,如ResNet、Inception等。我们可以通过设置适当的超参数和优化算法来优化这些模型,以获得更好的性能。 最后,在模型训练之后,我们可以使用测试数据集来评估模型的准确性和性能。通过计算准确率、精确率、召回率和F1值等指标,我们可以了解模型对印刷体字符的识别能力如何,并对模型进行改进或选择最佳模型。 总的来说,Keras印刷体数据集提供了一个用于训练和验证印刷体字符分类模型的基准数据集,使用Keras框架可以方便地加载、处理和训练这个数据集,并通过合适的神经网络模型来实现高准确率的印刷体字符识别任务。 ### 回答2: Keras 印刷体数据集是一个常用的机器学习数据集,使用这个数据集可以训练和测试印刷体字符的识别模型。该数据集由大量的手写印刷体字符样本组成,每个样本都标注有对应的标签,并且可用于训练和评估字符识别模型的性能。 Keras 印刷体数据集的特点之一是具有多样性,涵盖了各种不同的字符类型,包括数字、字母和特殊符号。这使得该数据集非常适合用于开发具有广泛泛化能力的模型,可以用来识别各种印刷体字符。 另一个值得注意的特点是,印刷体数据集是通过标记手写字符图像而创建的。这意味着每个样本都有一个对应的标签,指示了该字符的类别。这种标注方法使得该数据集非常适合用于监督学习的训练和评估。 使用 Keras 印刷体数据集进行模型训练时,可以采用各种机器学习方法,如深度学习、卷积神经网络等。通过在该数据集上进行训练,可以建立一个模型,能够正确地将输入的印刷体字符映射到对应的标签,实现字符识别的功能。 总之,Keras 印刷体数据集是一个用于训练和评估印刷体字符识别模型的常用数据集。它具有多样性和标注丰富的特点,可以用于各种机器学习方法。通过使用该数据集进行训练,可以构建出准确识别印刷体字符的模型。 ### 回答3: Keras印刷体数据集是一个常用的机器学习数据集,用于训练和测试印刷体字符识别模型。这个数据集包含了各种印刷体字符的图像样本,可以帮助我们构建识别和分类印刷体字符的模型。 Keras印刷体数据集一般包含大量的印刷体字符图像样本,这些样本可以是手写或者打印的字符,通常是黑白的,也可以是灰度图像。每个图像样本都有相应的标签,表示该字符的正确类别。 通过使用Keras印刷体数据集,我们可以训练一个深度学习模型,例如卷积神经网络(CNN),来识别和分类印刷体字符。我们可以将数据集划分为训练集和测试集,用训练集来训练模型,然后使用测试集评估模型的性能。 在使用Keras印刷体数据集时,我们可以通过预处理图像数据来提高模型的性能。这可能包括将图像调整为固定的尺寸、对图像进行归一化处理或增强数据集等。 总的说来,Keras印刷体数据集提供了一个方便和广泛使用的工具,用于训练和评估印刷体字符识别模型。通过使用这个数据集,我们可以构建高性能的模型,用于各种实际应用,例如自动识别和分类印刷体字符的系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

缘起性空、

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值