python点触图形验证码识别软件_使用Python和Tesseract来识别图形验证码

*本文原创作者:ipenox,本文属FreeBuf原创奖励计划,未经许可禁止转载

各位在企业中做Web漏洞扫描或者渗透测试的朋友,可能会经常遇到需要对图形验证码进行程序识别的需求。很多时候验证码明明很简单(对于非互联网企业,或者企业内网中的应用来说特别如此),但因为没有趁手的识别库,也只能苦哈哈地进行人肉识别,或者无奈地放弃任务。在这里,我分享一下自己使用Python和开源的tesseract OCR引擎做验证码识别的经验,并提供相关的源代码和示例供大家借鉴。

一、关于图形验证码识别与tesseractOCR

尽管多数图型验证码只有区区几个数字或字母,但你可能听说了,在进行机器识别的过程中,你要收集样本,对图片去噪、二值化、提取字符、计算特征,甚至还要祭出神经网络去训练数据进行机器学习……还没开干,退堂鼓早打响三遍了。其实我根本不想去钻研那么多高深的理论,只想要寥寥数行Python代码就搞定它,然后把主要精力投入到更重要的渗透测试中去。在这种情况下,tesseract就能帮上大忙了。

Tesseract的OCR引擎最早是HP实验室开发的,曾经是 OCR业内最准确的三款识别引擎之一。2005年该引擎交给了Google,作为开源项目发布在Google Project上了。Tesseract提供独立程序和API两种形式供用户使用。纯白色背景、字符规整无干扰像素的验证码图片可以直接调用tesseract程序来进行识别。如要更方便灵活地在自己的程序中进行识别,则可以使用tesseract的API。

二、Tesseract的编译和安装

Tesseract的项目主页(https://github.com/tesseract-ocr/tesseract)上wiki中有详细的编译安装步骤,大家

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值