利用Tesseract来识别验证码

概述

我们在写爬虫脚本时,经常会遇到验证码阻碍我们的道路。特别是这个网站的资料又非常重要,所以不得不研究一下怎么让机器自动识别。对于一些不太复杂的验证码,我们可以直接用现成的开源引擎Tesseract识别。

如下面的图片,数字还是很清晰,也没有什么偏转,字母粘连也不是很严重。在实际测试中,基本50%以上的验证码可以一次通过。

verif


Tesseract就是开源引擎里的执牛耳项目。起源于惠普实验室并在1984-1994年间大力发展的Tesseract,曾一度可与商业OCR软件比肩。2005年,HP在GoogleCode上将Tesseract开源,2006年开始由谷歌赞助,并由Ray Smith负责该项目。

Tesseract支持的语言非常多,每种语言有相应的语言包可以下载。但是从中文的情况来看,貌似效果不是太好,识别率几乎不可商用。相关论文中提到中文的准确率在95%以上,不知道实际的测试样本是怎么样的。英文准确率还不错,可以直接拿来用。这也是为什么这篇文章只能用于简单的中英文验证码。


Tesseract 环境搭建

在Ubuntu下,你可以直接用 sudo apt-get install tesseract 来安装。也可以按照这里的步骤编译安装。【tesseract compiling】语言包一般放在 /usr/local/share/tessdata 或者 /usr/share/tessdata

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值