准备工作
识别图形验证码需要库tesserocr。
识别测试
用tesserocr库识别该验证码,代码如下所示:
import tesserocr
from PIL import Image
image = Image.open("code.jpg")
result = tesserocr.image_to_text(image)
print(result)
在这里我们新建了一个Image对象,调用了tesserocr的image_to_text()方法。传入该Image对象即可完成识别。
另外,tesserocr还有一个更加简单的方法,这个方法可以直接将图片文件转化为字符串,代码如下:
import tesserocr
print(tesserocr.file_to_text('image.png'))
假如识别和实际结果有偏差,这是因为验证码内多余线条干扰了图片的识别
对于这种情况我们还需要做一些额外的处理,如转灰度、二值化等操作
我们可以利用Image对象的convert()方法传入参数L,即可将图片转化为灰度图像,代码如下:
image = image.convert('L')
image.show()
传入1即可将图片进行二值化处理,如下所示:
image = image.convert('1')
image.show()
我们还可以指定二值化的阈值。上面的方法采用的默认值为127,不过我们不能直接转化原图,要将原图西安转为灰度图像,然后再指定二值化的阈值,代码如下:
import tesserocr
from PIL import Image
image = Image.open('code2.jpg')
image = image.convert('L')
threshold = 127
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
image = image.point(table, '1')
image.show()
result = tesserocr.image_to_text(image)
print(result)
在这里threshold带包二值化阈值。
所以,针对一些有干扰的图片,我们做一些灰度和二值化处理,这会提高图片识别的正确率