利用Tesseract来识别验证码

最新推荐文章于 2025-03-27 19:59:31 发布

张小彬的代码人生

最新推荐文章于 2025-03-27 19:59:31 发布

阅读量1.6w

点赞数 1

分类专栏：机器学习文章标签： Tesseract 验证码验证码识别 OpenCV

本文链接：https://blog.csdn.net/zhangxb35/article/details/49592071

版权

本文介绍了如何利用Tesseract OCR引擎来识别验证码。首先讲解了Tesseract的环境搭建过程，接着探讨了预处理阶段，包括图像格式转换和使用OpenCV进行预处理。通过OpenCV进行灰度化和二值化操作后，使用Tesseract命令行工具进行识别。最后提供了相关资源链接以供深入学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

我们在写爬虫脚本时，经常会遇到验证码阻碍我们的道路。特别是这个网站的资料又非常重要，所以不得不研究一下怎么让机器自动识别。对于一些不太复杂的验证码，我们可以直接用现成的开源引擎Tesseract识别。

如下面的图片，数字还是很清晰，也没有什么偏转，字母粘连也不是很严重。在实际测试中，基本50%以上的验证码可以一次通过。

verif

Tesseract就是开源引擎里的执牛耳项目。起源于惠普实验室并在1984-1994年间大力发展的Tesseract，曾一度可与商业OCR软件比肩。2005年，HP在GoogleCode上将Tesseract开源，2006年开始由谷歌赞助，并由Ray Smith负责该项目。

Tesseract支持的语言非常多，每种语言有相应的语言包可以下载。但是从中文的情况来看，貌似效果不是太好，识别率几乎不可商用。相关论文中提到中文的准确率在95%以上，不知道实际的测试样本是怎么样的。英文准确率还不错，可以直接拿来用。这也是为什么这篇文章只能用于简单的中英文验证码。

Tesseract 环境搭建

在Ubuntu下，你可以直接用 sudo apt-get install tesseract 来安装。也可以按照这里的步骤编译安装。【tesseract compiling】语言包一般放在 /usr/local/share/tessdata 或者 /usr/share/tessdata 中

最低0.47元/天解锁文章