pytesseract 使用简介

最新推荐文章于 2024-08-08 08:10:01 发布

进击的Spider

最新推荐文章于 2024-08-08 08:10:01 发布

阅读量1.2k

点赞数

分类专栏： Python 爬虫

本文链接：https://blog.csdn.net/weixin_42552374/article/details/84443606

版权

Python 同时被 2 个专栏收录

42 篇文章 0 订阅

订阅专栏

爬虫

23 篇文章 0 订阅

订阅专栏

#!/usr/bin/env python
# -*- coding:utf-8 -*-


import pytesseract

from captcha.image import ImageCaptcha

import  random

imageCaptcha = ImageCaptcha()

chars = []

# A ~ Z
for i in range(65,91):
    chars.append(chr(i))

# a ~ z
for i in range(97,123):
    chars.append(chr(i))

for i in range(10):
    chars.append(str(i))

# 列表
code = random.choices(chars, k=4)

# 将列表转换为str
code = ''.join(code)

image = imageCaptcha.generate_image(code)

image = image.convert('L')

data = image.load()
# print(data[150,25])

w,h = image.size

for i in range(w):
    for j in range(h):
        print(data[i, j])
        if data[i,j] >180:
            # 255表示纯白
            data[i,j] = 255

        else:
            # 0表示纯黑
            data[i,j] = 0

image.show()

# 之所以没有识别，tesseract训练时候，给的数据方方正正
# 识别准确率提高，修改，captcha源码，将生成的图片，普通图片
str = pytesseract.image_to_string(image)

print(str)