tesseract结合selenium快速搜索图片中的文字

这篇博客介绍了一个使用Python结合tesseract验证码识别模块和selenium自动化测试模块的解决方案。通过截图、文字识别和自动搜索,解决了无法直接复制图片中文字的问题,尤其适用于论文图片和CMD窗口。代码简洁,成功率高。
摘要由CSDN通过智能技术生成

大家有没有遇到过这样的问题:当我们看到有些图片中的文字(比如论文中的图片或公式等),想搜索一下,但苦于不能直接复制,只能手动敲入在百度的搜索框;或者碰到其他复制比较麻烦的地方,比如cmd窗口,也是如此.这样费时费力,还可能会输入错误。
因此我尝试用python的验证码识别模块tesseract和自动化测试模块selenium写了个很简单的python程序,可以将想要搜索的文字截图下来保存在python程序当前目录下,运行Python程序就会调用tesseract识别然后selenium自动百度之,成功率还挺高的,以下是完整代码:


# -*- coding: utf-8 -*-
import pytesseract as rec
from PIL import Image
from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

def verify(filename):
    #识别截图并返回字符串
    image = Image.open(filename)
    code = rec.image_to_string(image)
    return code

#得到cmd窗口中的关键字
keyword = verify('cmd.png') 
#打开浏览器并百度上述关键字
browser = w
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值