验证码的识别

最新推荐文章于 2024-03-06 21:14:02 发布

XIAOTWOB

最新推荐文章于 2024-03-06 21:14:02 发布

阅读量178

点赞数

分类专栏：爬虫 Python 文章标签： tesserocr

本文链接：https://blog.csdn.net/XIAOTWOB/article/details/100186831

版权

Python 同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

爬虫

8 篇文章 0 订阅

订阅专栏

利用OCR技术识别图形验证码的方法
OCR，即Optical Character Recognition，光学字符识别是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说，它们都是一些不规则字符，这些字符确实是由字符稍加扭曲变换得到的内容。
tesserocr是Python的一个ocr识别库，但其实是对tesseract做的一层python API封装，所以它的核心是tesseract。
识别测试
（a）新创建了一个Image对象，调用了tesserocr的image_to_text()方法。传入该Image对象即可完成识别。

import tesserocr
from PIL import Image
image=Image.open('code.img')
result = tesserocr.image_to_text(image)
print(result)

(b)直接将图片文件保存为字符串，但是效果没有上一种好。

import tesserocr 
print(tesserocr.file_to_text('image.png'))

对于验证码内的多余线条干扰了图片的识别，对于这种情况，需要做一下额外的处理，如转灰度、二值化等操作。
可以利用Image对象的convert（）方法传入参数L，即可将图片转化为灰度图像，代码如下：

image = image.convert（‘L’）
image.show（）

传入1即可对图片进行二值化处理，

image  = image.convert（‘1’）
image.show（）

不过不能直接转化原图，需要先将原图转化为灰度图像，然后再制定二值化阈值，代码如下：

image = image.convert（'L'）
threshold = 80
table = [ ]
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
       table.append(1)
image = image.point(table,'1')
image.show()

在这段代码里面，变量threshold代表着二值化阈值，阈值设置为80。
然后再加上后续代码，

result = tesserocr.image_to_text(image)

便可将图片的验证码别出来。

XIAOTWOB

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
验证码的识别

利用OCR技术识别图形验证码的方法OCR，即Optical Character Recognition，光学字符识别是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。对于图形验证码来说，它们都是一些不规则字符，这些字符确实是由字符稍加扭曲变换得到的内容。tesserocr是Python的一个ocr识别库，但其实是对tesseract做的一层python API封装，所以它的核心是tes...
复制链接

扫一扫

专栏目录