python实现图片,验证码 识别
1. 图片识别OCR技术和Tesseract-OCR工具
2. python调用OCR技术的第三方包
3. 实例操作与实现
4. 操作过程注意事项
功能实现思路:
概述:
首先明确的是,python实现图片、验证码的OCR识别并不是python自身技术,而是通过python第三方包调用OCR工具实现。
使用的OCR工具:Tesseract-OCR
python第三方包:PIL,pytesseract
1 图片识别OCR技术和Tesseract-OCR工具
1.1 OCR技术定义
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪 或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
即通过识别图片的暗、亮的模式识别出图片中的文字。
1.2 Tesseract-OCR工具
使用的OCR工具:Tesseract-OCR(详细了解点击这里)
windows下载地址:https://digi.bib.uni-mannheim.de/tesseract/
安装方法一律点击下一步即可。
1.3 Tesseract-OCR其他系统安装方式
以下是其他系统对Tesseract-OCR工具的安装方式:
对于CentOS 8,以root用户身份运行以下命令:
dnf config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_8/
rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key
dnf install tesseract
dnf install tesseract-langpack