爬虫中图片验证码的处理

tesserct-ocr是由Google维护的开源OCR底层识别库,可以把图片上的文字转换成字符串.而pytesseract是对tesseract-ocr做的一层Python API封装.可以用pytesseract来完成对图片验证码的识别.

Ubuntu安装 tesseract-ocr
sudo apt-get install tesseract-ocr
windows安装 tesseract-ocr

1、下载安装包 https://github.com/UB-Mannheim/tesseract/wiki
2、安装之后把文件夹Tesseract-OCR的路径添加到环境变量(Path)

测试

要保存的文件名默认会以.txt为后缀

tesseract xxx.jpg 文件名
安装pytesseract
pip3 install pytesseract
简单使用

网站爬取思路(验证码)
1、获取验证码图片
2、使用PIL库打开图片
3、使用pytesseract将图片中验证码识别并转为字符串
4、将字符串发送到验证码框中或者某个URL地址

import pytesseract
# Python图片处理标准库
from PIL import Image
# 创建图片对象
img = Image.open('test1.jpg')
# 图片转字符串
result = pytesseract.image_to_string(img)
print(result)

注: 可能需要大量的训练来提高识别率
tesseract-ocr识别率很低,文字变形、干扰,导致无法识别验证码,所以有实力的还是对接在线打码平台吧

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值