TensorFlow验证码识别

  • 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/kun1280437633/article/details/80671564
本节我们来用 TensorFlow 来实现一个深度学习模型,用来实现验证码识别的过程,这里我们识别的验证码是图形验证码,首先我们会用标注好的数据来训练一个模型,然后再用模型来实现这个验证码的识别。

验证码

首先我们来看下验证码是怎样的,这里我们使用 Python 的 captcha 库来生成即可,这个库默认是没有安装的,所以这里我们需要先安装这个库,另外我们还需要安装 pillow 库,使用 pip3 即可:

pip3 install captcha pillow

安装好之后,我们就可以用如下代码来生成一个简单的图形验证码了:

from captcha.image import ImageCaptcha
from PIL import Image
text = '1234'
image = ImageCaptcha()
captcha = image.generate(text)
captcha_image = Image.open(captcha)
captcha_image.show()

运行之后便会弹出一张图片,结果如下:


可以看到图中的文字正是我们所定义的 text 内容,这样我们就可以得到一张图片和其对应的真实文本,这样我们就可以用它来生成一批训练数据和测试数据了。

预处理

在训练之前肯定是要进行数据预处理了,现在我们首先定义好了要生成的验证码文本内容,这就相当于已经有了 label 了,然后我们再用它来生成验证码,就可以得到输入数据 x 了,在这里我们首先定义好我们的输入词表,由于大小写字母加数字的词表比较庞大,设想我们用含有大小写字母和数字的验证码,一个验证码四个字符,那么一共可能的组合是 (26 + 26 + 10) ^ 4 = 14776336 种组合,这个数量训练起来有点大,所以这里我们精简一下,只使用纯数字的验证码来训练,这样其组合个数就变为 10 ^ 4 = 10000 种,显然少了很多。

所以在这里我们先定义一个词表和其长度变量:

VOCAB = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']
CAPTCHA_LENGTH = 4
VOCAB_LENGTH = len(VOCAB)

这里 VOCAB 就是词表的内容,即 0 到 9 这 10 个数字,验证码的字符个数即 CAPTCHA_LENGTH 是 4,词表长度是 VOCAB 的长度,即 10。

  • 4
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值