python爬虫之图片验证码识别

最新推荐文章于 2024-07-31 20:06:23 发布

不问散人

最新推荐文章于 2024-07-31 20:06:23 发布

阅读量832

点赞数 3

分类专栏：爬虫从入门到放弃文章标签： python 图像识别爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/starfish_s/article/details/111242141

版权

爬虫从入门到放弃专栏收录该内容

10 篇文章 1 订阅

订阅专栏

将图片翻译成文字的技术被称为光学文字识别,即OCR(Optical Character Recognition)技术

Tesseract 是有谷歌赞助的，目前公认最优秀、最准确的开源OCR库
安装
- 下载exe文件，https://digi.bib.uni-mannheim.de/tesseract/，目前最新版本为 tesseract-ocr-w64-setup-v5.0.0-alpha.20201127.exe
- 下载数据集：链接：https://pan.baidu.com/s/1HQTtLEKAJeF5KT4JcwYHMg
  提取码：apoj
- 保险起见，尽量降低文件路径深度，并且路径尽量不要含有中文，可参照D:\Tesseract-OCR\tesseract.exe, D:\Tesseract-OCR\tessdata
- 设置环境变量，如果想要在命令号中使用：将tesseract.exe所在路径添加到PATH环境变量中。同时将训练的数据文件路径也放到环境变量中，如图，在环境变量中添加TESSDATA_PREFIX=tessdata路径
检查安装是否成功：cmd 输入命令tesseract --version,如果显示版本即安装成功
使用
- 命令行
  - tesseract 图片路径文件路径
  - 实例 tesseract demo.jpg file1
- python
  - pip install pytesseract -i https://pypi.douban.com/simple
```
import pytesseract
from PIL import Image

pytesseract.pytesseract.tesseract_cmd = r'D:\Tesseract-OCR\tesseract.exe'
tessdata_dir_config = r'--tesseract-dir "D:\Tesseract-OCR\tessdata"'
image = Image.open('bb.png')
print(pytesseract.image_to_string(image, lang='eng', config=tessdata_dir_config))
```
最后再说明一下，这个识别率高是相对于开源的OCR库来说，咳咳，毕竟不要钱嘛，如果对识别率较高可以使用打码云平台来识别，要花点小钱哈。

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。