python爬虫 使用tesseract识别验证码

本文介绍如何利用tesseract OCR技术处理验证码识别,包括获取灰度图、二值化、去除干扰、图片切割及训练数据等步骤,以实现Python爬虫的0成本验证码解决方案。
摘要由CSDN通过智能技术生成

最近有个需求,需要处理验证码,以前的解决方案是接打码平台进行处理,但是一个好的爬虫不应该是0成本吗?于是,强迫自己花了一天的时间好好的研究了一下tesseract, 在此总结以下步骤

  1. 获取灰度图
image = Image.open(image_path).convert('L')
  1. 二值化图像
#1.画直方图显示灰度值分布情况, 观察获取阀值 
w, h = image.size
gray_dict = defaultdict(int)
for x in range(w):
    for y in range(h):
        pixel = image.getpixel((x, y))
        gray_dict[pixel] += 1
plt.bar(list(gray_dict.keys()), list(gray_dict.values()))
plt.show()
#2.二值化
image.point(lambda x:0 if x < 阀值 else 255)
#image.point(lambda x:0 if x < 阀值 else 1, '1')
  1. 去除干扰
遍历像素点,根据像素点周围的八个点的颜色值,判断是否为噪点,是噪点把它设置为白色,具体情况根据图像进行处理
  1. 切割图片
如果图像中的字符紧挨着,会导致识别率很低,这种情况下最好先进行切割处理
  1. 识别验证码
text 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值