Python验证码识别图像二值化去除噪点(tesseract识别数字字母)

本文介绍了Python环境下使用tesseract库进行验证码识别的过程,包括开发环境的配置、图像的二值化处理和去除噪点,以及使用tesseract进行文字识别,最终得到识别结果。
摘要由CSDN通过智能技术生成

一、Python爬虫验证码识别

1、开发环境

  • tesseract
  • Python3 :PIL pytesseract

关于环境搭建网上教程很多,环境变量配置好后,终端输入
tesseract -v
在这里插入图片描述
这就代表环境搭建成功

tesseract 123.jpg result -l eng
result 表示输出文档名
-l 表示选择的语言

2、原始数据数据

在这里插入图片描述

3、识别大概步骤

  • 图像二值化
  • 去除图像噪点
  • tesseract识别


from PIL import Image
import pytesseract

# 去除噪点
def clear_noise (img)  :  # img:图片地址
    white = (255 ,255 ,255 ,255)
    black = (0 ,0 ,0 ,255)
    # img = Image.open('/home/yang/png/0.png') # 读入图片
    pixdata = img.load()
    X = img.size[0 ] -  1  # 因为我校的验证码二值化后正好剩下一圈宽度为一像素的白边,所以这么处理了
    Y = img.size[1 ] -1

    def icolor(RGBA):
        if RGBA == white: return(1)
        else:
            return(0)

    for y in range(Y):
        for x in range(X):
            if (x<1 or y<1):
                pass
            else:
                if icolor(pixdata[x,y]) == 1:
                    pass
                else:
                    if (
                                                        icolor(pixdata[x+1,y])+
                                                        icolor(pixdata[x,y+1])+
                                                    icolor(pixdata[x-1,y])+
                                                icolor(pixdata[x,y-1])+
                                            icolor(pixdata[x-1,y-1])+
                                        icolor(pixdata[
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值