Python验证码识别——前处理

进击的C语言

于 2024-10-09 13:47:59 发布

阅读量260

点赞数 6

文章标签： python

本文链接：https://blog.csdn.net/GR001009/article/details/142784808

版权

目前不少系统的验证码做得越来越复杂，人眼都难以识别，尤其是QQ之类的验证码，想要识别，太难了。

现在有这样一个验证码：

一般的验证码识别，都是先进行前处理，然后分割，在进行识别。这个验证码没有其他噪音，但存在一条横穿的曲线干扰，并且验证码中字体是粘连在一起的。

如果不将干扰曲线去除，那么整个识别将会受到一定的影响，为此，先要去掉这条曲线，首先通过的办法是将先获取曲线的头位置（x，y），这一部分很简单，代码如下：

1 def get_left_start_point(im):
2 start_point = (0,0)
3 found = False
4 w, h = im.size
5 data = list(im.getdata())
6 for x in xrange(w):
7 for y in xrange(h):
8 if data[ y*w + x ] != white:
9 found = True
10 start_point = (x,y)
11 break
12
13 if found:
14 break
15 return start_point

取到头结点后，然后依次从左到右遍历过去，上下判断是否为黑点，将线条坐标位置保存起来，之后进行线条位置去除，代码如下(感谢孙志海朋友的提示）：

def remove_line(im, aim):
w,h = im.size
data = list( im.getdata() )

for x,y in aim:
curr = data[ y * w + x ]
prev = data[ (y-1) * w + x]
next = data[ (y+1) * w + x]

if prev == black and next == black:
continue

if prev == black:
data[ y * w + x ] = white
data[ (y-1) * w + x] = white

elif next == black:
data[ y * w + x ] = white
data[ (y+1) * w + x] = white

else:
data[ y * w + x ] = white