在实现网络爬虫的过程中,验证码的出现总是会阻碍爬虫的工作。本期介绍一种利用深度神经网络来实现的端到端的验证码识别方法。通过本方法,可以在不切割图片、不做模板匹配的情况下实现精度超过90%的识别结果。
本文分为两个部分,第一个部分介绍如何利用深度神经网络实现验证码的训练和识别,第二个部分介绍在实现过程中需要克服的工程问题。
一. 基于深度神经网络的验证码识别
验证码的识别是从图片到文字的过程。传统的算法如OCR正是为了解决此类问题而设计的。然而,在真实情形中,验证码通常并不以规则的文字出现,即文字通常会有不同程度的变形,图像本身也通常会被添加或多或少的噪声。这些干扰的出现,使得文字分割、模板匹配不再有效,进而OCR算法也很难解析出结果。
近年来,深度神经网络(DNN)在图像识别领域已经被证明了强大的识别能力。单个文字的识别是典型的分类问题。通常的做法为训练一个深度神经网络,网络的最后一层分为N种类别,代表字符的数目。比如对于英文字母,最后一层的分类器便是26个。比如经典的LeNet(http://yann.lecun.com/exdb/lenet/)即为解决单个文字识别的网络:
然而验证码通常包含多个字符,如何利用现有的网络实现这类分类问题呢?实际上这个问题再机器学习中被称为多标签训练问题。和上述每个图片输