背景环境: win8.1 64位 python2.7.13
本以为会很简单,结果在配置环境这块上花了很多时间,踩了几个坑,最后自己看英文文档和log才解决问题。
打开网站
https://pypi.python.org/pypi/pytesseract
https://github.com/tesseract-ocr/tesseract/wiki
https://github.com/tesseract-ocr/tesseract/wiki/Downloads
http://www.pythonware.com/products/pil/
找到并下载安装tesseract-ocr-setup-4.00.00dev.exe文件 下载中文训练库chi_sim.traineddata
将安装文件路径 添加到环境变量中的PATH 和 Path中去 ,在系统变量中添加一个TESSDATA_PREFIX,变量值还是文件路径
我的是D:\programfiles\tesseract\Tesseract-OCR
打开cmd安装 pip install pytesseract
去C:\Python27\Lib\site-packages 下找到PIL卸载 然后 去下载 PIL-1.1.7.win32-py2.7.exe 并安装
#-*- coding: utf-8 -*-
try:importImageexceptImportError:from PIL importImageimportpytesseract
img= Image.open('test2.png')
img.load()
text= pytesseract.image_to_string(img, lang='chi_sim