继写了第一篇包含验证码识别的自动化登录脚本后在一次与朋友聊天中谈到中文识别。想起Tesseract-OCR是有这个包的,然后我就搞了搞
#coding = utf -8
from PIL import Image
import pytesseract
im = Image.open("2.png")
text = pytesseract.image_to_string((im), lang='chi_sim')
print (text)
其实识别率不是太高,本来我想用pytesser3的,结果搞了好久,识别到的东西一直保存不了,一直报