python3 ocr识别,python3调用OCR识别

本文介绍了如何使用Tesseract OCR工具进行文字识别,并提到其识别率不高。随后,作者推荐了腾讯AI的通用OCR服务,指出其识别效果更佳且免费。文章还提供了详细的代码示例,展示了从基础开源工具到商业API的迁移过程。
摘要由CSDN通过智能技术生成

可以用工具,需要下载安装tesseract-ocr,地址:https://github.com/tesseract-ocr/tesseract/wiki,找对应版本,还可以从上面找到各种.traineddata,放入tessdata文件夹。设置好环境变量,要新建TESSDATA_PREFIX,值为:D:\Program Files (x86)\Tesseract-OCR,路径是tessdata文件夹的上一层目录。

b98f360b2a560bc36297c7af569613a1.png

还要在pytesseract.py(文件地址如:D:\ProgramData\Anaconda3\Lib\site-packages\pytesseract)找到tesseract_cmd设置好路径。如:tesseract_cmd = 'D:/Program Files (x86)/Tesseract-OCR/tesseract.exe'。

参考:http://www.cnblogs.com/zhongtang/p/5554784.html

代码很简单:

from PIL import Image

import pytesseract

text = pytesseract.image_to_string(Image.open('denggao.jpg'),lang='chi_sim')

print(text)

不过识别率不太好。

还可以调用腾讯AI开放平台上的通用OCR识别,效果杠杠的,而且免费。参考:https://ai.qq.com/doc/ocrgeneralocr.shtml。

https://blog.csdn.net/kiramario/article/details/53781369#comments

代码:

import base64

import hashlib

import time

import random

import string

from urllib.parse import quote

import requests

def curlmd5(src):

m = hashlib.md5(src.encode('UTF-8'))

return m.hexdigest().upper()

# 请求时间戳(秒级),用于防止请求重放(保证签名5分钟有效)

def get_params(base64_data):

t = time.time()

time_stamp=str(int(t))

# 请求随机字符串,用于保证签名不可预测

nonce_str = ''.join(random.sample(string.ascii_letters + string.digits, 10))

# 应用标志,这里修改成自己的id和key

app_id = '110684xxxx'

app_key = 'NiYtm56TQsnIxxxx'

params = {'app_id':app_id,

'image':base64_data,

'time_stamp':time_stamp,

'nonce_str':nonce_str,

}

sign_before = ''

# 要对key排序再拼接

for key in sorted(params):

# 键值拼接过程value部分需要URL编码,URL编码算法用大写字母,例如%E8。quote默认大写。

sign_before += '{}={}&'.format(key,quote(params[key], safe=''))

# 将应用密钥以app_key为键名,拼接到字符串sign_before末尾

sign_before += 'app_key={}'.format(app_key)

# 对字符串sign_before进行MD5运算,得到接口请求签名

sign = curlmd5(sign_before)

params['sign'] = sign

return params

url = "https://api.ai.qq.com/fcgi-bin/ocr/ocr_generalocr"

with open('denggao.jpg','rb') as fin:

image_data = fin.read()

base64_data = base64.b64encode(image_data)

params = get_params(base64_data)

r = requests.post(url,data=params)

item_list = r.json()['data']['item_list']

for s in item_list:

print(s['itemstring'])

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值