深度学习实战（十二）——Keras数据集的制作和加载

最新推荐文章于 2023-05-10 13:09:37 发布

马大哈先生

最新推荐文章于 2023-05-10 13:09:37 发布

阅读量3.1k

点赞数

分类专栏：深度学习 Keras 文章标签： Keras数据集制作

本文链接：https://blog.csdn.net/qq_37764129/article/details/100858329

版权

本文介绍了如何为深度学习项目创建自定义数据集，特别是以captcha验证码识别为例，详细讲解了从寻找和建立样本到为样本打标签的步骤。通过理解这个过程，读者可以学会在Keras中导入和使用自己的数据集，而不仅仅局限于预封装的数据集。

摘要由CSDN通过智能技术生成

前言

在刚开始接触Keras时，相信大家都实践过诸如MNIST手写数据集、CIFAR系列数据集，这些数据集的特点是已经为用户打包封装好了数据。在Keras环境下只要load_data即可实现导入。但是实际情况是，为了某一个项目我们不可能总是找到相应的打包好的数据集供使用，这时候自己建立一个dataset就十分重要。然而针对这方面，官方手册给出的知道不是很明确；而在网上搜索相关内容，得到的答案也不是很通俗易懂，不太适合深度学习的初学者阅读，即使有现成的代码（如：github上），放在自己的运行环境下也不见得能用。下面我想为广大初学者介绍一下如何创建与导入自己的数据集，这样就不用拘泥于Kears提供的现成datasets来进行训练了。这里我们以captcha验证码识别项目为例。

第一步：寻找和建立样本

captcha本身提供了用户自定义验证码生成API，利用它，我们可以轻松的建立样本。样本数目不要太少，视项目具体情况而定（本项目一般50000个左右）。网上有很多资源关于如何用captcha生成*.png的验证码，这里就不再赘述。

第二步：为样本打好标签（LABEL）【1】

得到了样本后我们下面一步要做的就是给样本打标签。作为一个监督学习的项目，我们有义务告诉计算机什么样的结果是正确的，什么样的结果是错误的。如果说X_train为样本的话，我们这里要做的便是得到y_train。打标签的方法有很多，比如建立*.txt文件对应样本一一做标签。Concretely, 本项目中，captcha在随机生成验证码的同时已经将相应验证码样本命名为了代表其含义的png文件前缀（下图所示），这非常利于我们做标签。

最低0.47元/天解锁文章

马大哈先生

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
深度学习实战（十二）——Keras数据集的制作和加载

前言在刚开始接触Keras时，相信大家都实践过诸如MNIST手写数据集、CIFAR系列数据集，这些数据集的特点是已经为用户打包封装好了数据。在Keras环境下只要load_data即可实现导入。但是实际情况是，为了某一个项目我们不可能总是找到相应的打包好的数据集供使用，这时候自己建立一个dataset就十分重要。然而针对这方面，官方手册给出的知道不是很明确；而在网上搜索相关内容，得到的答案也不...
复制链接

扫一扫

专栏目录