验证码的识别

利用OCR技术识别图形验证码的方法
OCR,即Optical Character Recognition,光学字符识别是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说,它们都是一些不规则字符,这些字符确实是由字符稍加扭曲变换得到的内容。
tesserocr是Python的一个ocr识别库,但其实是对tesseract做的一层python API封装,所以它的核心是tesseract。
识别测试
(a)新创建了一个Image对象,调用了tesserocr的image_to_text()方法。传入该Image对象即可完成识别。

import tesserocr
from PIL import Image
image=Image.open('code.img')
result = tesserocr.image_to_text(image)
print(result)

(b)直接将图片文件保存为字符串,但是效果没有上一种好。

import tesserocr 
print(tesserocr.file_to_text('image.png'))

对于验证码内的多余线条干扰了图片的识别,对于这种情况,需要做一下额外的处理,如转灰度、二值化等操作。
可以利用Image对象的convert()方法传入参数L,即可将图片转化为灰度图像,代码如下:

image = image.convert(‘L’)
image.show()

传入1即可对图片进行二值化处理,

image  = image.convert(‘1’)
image.show()

不过不能直接转化原图,需要先将原图转化 为灰度图像,然后再制定二值化阈值,代码如下:

image = image.convert('L')
threshold = 80
table = [ ]
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
       table.append(1)
image = image.point(table,'1')
image.show()

在这段代码里面,变量threshold代表着二值化阈值,阈值设置为80。
然后再加上后续代码,

result = tesserocr.image_to_text(image) 

便可将图片的验证码别出来。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值