可以用工具,需要下载安装tesseract-ocr,地址:https://github.com/tesseract-ocr/tesseract/wiki,找对应版本,还可以从上面找到各种.traineddata,放入tessdata文件夹。设置好环境变量,要新建TESSDATA_PREFIX,值为:D:\Program Files (x86)\Tesseract-OCR,路径是tessdata文件夹的上一层目录。
还要在pytesseract.py(文件地址如:D:\ProgramData\Anaconda3\Lib\site-packages\pytesseract)找到tesseract_cmd设置好路径。如:tesseract_cmd = ‘D:/Program Files (x86)/Tesseract-OCR/tesseract.exe’。
参考:http://www.cnblogs.com/zhongtang/p/5554784.html
代码很简单:
from PIL import Image
import pytesseract
text = pytesseract.image_to_string(Image.open('denggao.jpg'),lang='chi_sim')
print(text)
不过识别率不太好。
还可以调用腾讯AI开放平台上的通用OCR识别,效果杠杠的,而且免费。参考:https://ai.qq.com/doc/ocrgeneralocr.shtml。
https://blog.csdn.net/kiramario/article/details/53781369#comments
代码:
import base64
import hashlib
import time
import random
import string
from urllib.parse import quote
import requests
def curlmd5(src):
m = hashlib.md5(src.encode('UTF-8'))
return m.hexdigest().upper()
# 请求时间戳(秒级),用于防止请求重放(保证签名5分钟有效)
def get_params(base64_data):
t = time.time()
time_stamp=str(int(t))
# 请求随机字符串,用于保证签名不可预测
nonce_str = ''.join(random.sample(string.ascii_letters + string.digits, 10))
# 应用标志,这里修改成自己的id和key
app_id = '110684xxxx'
app_key = 'NiYtm56TQsnIxxxx'
params = {'app_id':app_id,
'image':base64_data,
'time_stamp':time_stamp,
'nonce_str':nonce_str,
}
sign_before = ''
# 要对key排序再拼接
for key in sorted(params):
# 键值拼接过程value部分需要URL编码,URL编码算法用大写字母,例如%E8。quote默认大写。
sign_before += '{}={}&'.format(key,quote(params[key], safe=''))
# 将应用密钥以app_key为键名,拼接到字符串sign_before末尾
sign_before += 'app_key={}'.format(app_key)
# 对字符串sign_before进行MD5运算,得到接口请求签名
sign = curlmd5(sign_before)
params['sign'] = sign
return params
url = "https://api.ai.qq.com/fcgi-bin/ocr/ocr_generalocr"
with open('denggao.jpg','rb') as fin:
image_data = fin.read()
base64_data = base64.b64encode(image_data)
params = get_params(base64_data)
r = requests.post(url,data=params)
item_list = r.json()['data']['item_list']
for s in item_list:
print(s['itemstring'])