python利用pytesseract识别图片验证码

最新推荐文章于 2024-06-05 20:06:36 发布

feiyang5260

最新推荐文章于 2024-06-05 20:06:36 发布

阅读量4.6k

点赞数

分类专栏： python

python 专栏收录该内容

81 篇文章 10 订阅

订阅专栏

1.pytesseract是什么

pytesseract是python的一个光学字符识别模块。可用来做图片文字识别。

2.什么是光学字符识别

光学字符识别即Optical Character Recognition，简称OCR，是指通过扫描字符，通过其形状将其翻译成电子文本的过程，对于图像验证码来说，它们都是一些不规则的字符，这些字符是由字符稍加扭曲变换得到的内容，我们可以使用OCR技术将其转化为电子文本，然后将记过提交给服务器，以达到自动识别验证码的过程。

详细安装及使用见：https://www.cnblogs.com/zhangxinqi/p/9297292.html

3.识别验证码code.jpg

3.1直接识别

import pytesseract
from PIL import Image

image = Image.open("code.jpg")
result = pytesseract.image_to_string(image)
print(result)  # 1346

识别结果错误

3.2二值化处理

图像二值化（ Image Binarization）就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中，二值图像占有非常重要的地位，图像的二值化使图像中数据量大为减少，从而能凸显出目标的轮廓 (百度百科)

# 先将图片灰度化，再二值化图像，  区别为：https://blog.csdn.net/qq_33264811/article/details/85280983
# 传入参数为图像和阈值
def erzhihua(image,threshold):
    # 变为灰色，模式L为灰色模式，它的每个相似用8个bit表示，0表示黑，255表示白，其他数字表示不同的灰度
    image=image.convert('L')  #灰色模式
    #image.show()
    table = []
    for i in range(256):
        if i < threshold:
            table.append(0)
        else:
            table.append(1)
    return image.point(table,"1")


raw_image = Image.open("code.jpg")
image = erzhihua(raw_image,127)
#image.show()
result = pytesseract.image_to_string(image,lang='eng')
print("result:" + result)   # 识别错误，识别度依然不高

以上两种方式识别此图片不正确，先了解基本使用情况，待后续进一步研究

参考资料：

https://blog.csdn.net/dcba2014/article/details/78969658

https://blog.csdn.net/Akino_Rito/article/details/79353882
https://blog.csdn.net/icamera0/article/details/50843172

feiyang5260

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python利用pytesseract识别图片验证码

1.pytesseract是什么pytesseract是python的一个光学字符识别模块。可用来做图片文字识别。2.什么是光学字符识别光学字符识别即Optical Character Recognition，简称OCR，是指通过扫描字符，通过其形状将其翻译成电子文本的过程，对于图像验证码来说，它们都是一些不规则的字符，这些字符是由字符稍加扭曲变换得到的内容，我们可以使用OCR技术将其...
复制链接

扫一扫

专栏目录