开学啦!不要忘记学习哦!
在爬虫的过程中经常遇到验证码,这可真是一大难题,今天给大家带来的是识别图形验证码。
pytesseractOCR,英文全称叫做Optical Character Recognition,中文名叫做光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。
操作系统:Windows7
python版本:3.6.5
1、安装tesseract:
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
2、配置环境变量
3、在python中使用tesseract
安装库pytesseract:
pip install pytesseract
4、验证安装:
准备一张验证码