简述:OCR,即 Optical Character Recognition,光学字符识别
是指通过扫描字符,然后通过其形状将 其翻译成电子文本的过程。 对于图形验证码来说,它们都是一些不规则的字符,这些字符确实是由字 符稍加扭曲变换得到的内容。
对于验证码,我们可以使用 OCR技 术来将其转化为电子文本,然后爬虫将识别结果提交给服务器,便可以达 到向动识别验证码的过程。
tesserocr是 Python 的一个 OCR识别库,但其实是对 tesseract做验证码 层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之 前,我们需要先安装tesseract。
相关链接
1.tesserocr GitHub: https://github.com/sirfz/tesserocr
3.tesserocr Py PI: https://pypi.python.org/pypi/tesserocr
4..tesseract下载地址: http://digi.bib.uni-manr由eim.de/tesseract
5.tesseract GitHub : https :// github. com/tesseract-ocr/tesseract
选择合适自己的版本,点击next
句选 Additional language data(download)选项来安装 OCR识别支持的语言包,这样 OCR 便可以识别多国语言。 然后一路点击 Next 按钮即可。
在这里我们安装好了tesseract,但是使用
pip3 install tesserocr pillow
就会出现报错
看了很多的资料,这里直接提供一种解决的方法
下载tesseract的whl文件,然后再通过pip安装,具体步骤如下:
1.whl安装包下载点击打开链接,
2.选择相应的版本号,
3.将下载好的问whl文件放到python的安装路径,
4.复制whl文件名并安装,
pip3 install tesserocr-2.4.0-cp36-cp36m-win_amd64.whl
5. 安装成功
6.使用代码进行安装
pip3 install tesserocr pillow
7.验证安装