验证码识别原理分析
案例数据如下所示:
分为验证码图片数据[20, 80, 3]和目标结果csv文件
验证码图片数据有很多张,名字例如1.jpg、2.jpg;一份目标结果csv文件,有两列数据,第一列为序列号(从0开始),第二列是目标字母,如NZPP。
数据处理分析步骤:
步骤一:把验证码图片数据和目标csv数据存储成tfrecords文件
步骤二:识别验证码
1、从tfrecords读取,每一张图片有image,label。[100, 20, 80, 3]
2、建立模型,直接读取数据输入到模型中。这里我们就定义一个全连接层。
x=[100, 20*80*3] w=[20*80*3, 26*4] bias=[26*4] y_predict=[100, 26*4]
3、建立损失,softmax,交叉熵
先把[100, 4]的目标值转换成one-hot编码[100, 26*4]
4、梯度下降优化
4个标签(一张图有四个字母)的交叉熵如何建立?
y_true=[None, 4*26] y_predict=[None, 4*26]
重点注意:
求准确性的时候用到的函数tf.argmax(data值,维度),函数表示求给定数据中的最大值的位置。那么参数中的维度值怎么给定?
在此案例中,求准确性是要用三维计算(一个样本中的四个值都为1,结果才为1),预测值和目标值的范围是[100, 4, 26](三个值对应的维度数是0,1,2),我们肯定是需要求出每个图片的每个字母的准确性,所以是从26个值中找最大值,因此维度值=2。
完整代码
步骤一
把特征数据和目标数据存储成tfrecords文件
#! /usr/bin/env python
# -*- coding:utf-8 -*-
"""
读取图片验证码源数据和目标csv文件,存储为tfrecords文件
验证码特征数据保存形状[6000,20,80,3]
目标数据保存形状[6000, 4] 例如:[[13,25,15,15], [22,10,7,10], [22,15,18,9],...]
"""
import tensorflow as tf
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' # 设置告警级别
FLAGS = tf.app.flags.FLAGS
tf.app.flags.DEFINE_string("tfrecords_dir", "./tfrecords/captcha.tfrecords", "验证码图片和标签的TFRecords文件路径")
tf.app.flags.DEFINE_string("captcha_dir", "../data/Genpics/", "验证码图片路径")
tf.app.flags.DEFINE_string("letter", "ABCDEFGHIJKLMNOPQRSTUVWXYZ", "验证码字