第5章验证码识别

玛丽有只小绵羊

已于 2022-10-07 21:01:45 修改

阅读量470

点赞数

文章标签： java 开发语言深度学习

于 2022-09-30 23:00:28 首次发布

本文链接：https://blog.csdn.net/lieslyang/article/details/127130121

版权

Web安全专栏收录该内容

12 篇文章 0 订阅

订阅专栏

验证码CAPTCHA（Completely Automated Public Turing test to tell Computers and Humans Apart）是全自动区分计算机和人类的图灵测试的缩写，是一种区分用户是计算机还是人的公共全自动程序。设计的初衷是防止恶意破解密码、刷票、论坛灌水，实际上用验证码是现在很多网站通行的方式。验证码的基本假设是，由于计算机无法解答CAPTCHA的问题，所以回答出问题的用户就可以被认为是人类。攻防是相生相伴的，针对验证码出现了大量的破解技术。

常见的数字型验证码变种多样，比如某招聘网站验证码，字母周围有噪点，字体扭曲。某电商网站验证码，不同样式，字母阴影，字母粘连，背景色干扰。某社交网站，主体干扰线，背景色干扰，背景字母干扰，字体扭曲，字母粘连。

本章主要以MNIST数据集为例介绍识别数字型验证码，介绍验证码识别使用的特征提取方法，包括一维向量、二维向量、使用的模型以及对应的验证结果，包括K近邻、支持向量机和深度学习。

5.1 数据集

验证码识别使用的数据集为MNIST数据集，MNIST是一个入门级的计算机视觉数据集，它包含各种手写数字图片。该数据集也包含每一张图片对应的标签，告诉我们这个是数字几。数据集包含60000个图片训练数据集和10000个图片测试数据集。每一个MNIST数据单元由两部分组成：一张包含手写数字的图片和一个对应的标签。每一张图片包含28*28个像素点，可以把这个数组展开成一个一维向量，长度是28*28=784。

文件读取方式为：

import pickle
import gzip


def load_data():
    with gzip.open('./mnist.pkl.gz') as fp:
        training_data, valid_data, test_data = pickle.load(fp)
    return training_data, valid_data, test_data

5.2 特征提取

1.一维向量

这也是MNIST默认的特征提供方式，将28*28的图片转换成了长度为784的一维向量：

import tflearn.datasets.mnist as mnist

X, Y, testX, testY = mnist.load_data(one_hot=True)

2.二维向量

为了适应特定模型，需要将原本的一维向量转换回原有的28*28的二维向量，具体方法使用数组的reshape函数即可：

import tflearn.datasets.mnist as mnist

X, Y, testX, testY = mnist.load_data(one_hot=True)
X = X.reshape([-1, 28, 28, 1])
testX = testX.reshape([-1, 28, 28, 1])