python3 ocr识别_腾讯云OCR Python3实现

对于通用印刷体识别,腾讯云只提供API调用,不提供Python-SDK。

签名算法

获取签名信息

appid = '控制台获得'

secret_id = '控制台获得'

secret_key = b'控制台获得'

bucket = 'BUCKET'

expired = time.time() + 2592000

current = time.time()

rdm = ''.join(random.choice("0123456789") for i in range(10))

拼接多次有效签名串

info = "a=" + appid + "&b=" + bucket + "&k=" + secret_id + "&e=" + str(expired) + "&t=" + str(current) + "&r=" + str(

rdm) + "&f="

info = info.encode("utf-8")

加密编码

signindex = hmac.new(secret_key, info, hashlib.sha1).digest() # HMAC-SHA1加密

sign = signindex + info

sign = base64.b64encode(sign) # base64转码

hmac模块介绍

注意此处secret_key和info都要求是bytes格式,如果是str格式,需要进行bytes编码,另外腾讯要求SHA1算法加密后的输出必须是原始的二进制数据,所以应该使用digest(),而不是hexdigest(),也就是输出的signindex也是bytes格式的。

构建请求头和请求体

url = "http://recognition.image.myqcloud.com/ocr/general"

headers = {'Host': 'recognition.image.myqcloud.com',

"Authorization": sign

}

files = {'appid': (None, appid),

'bucket': (None, bucket),

'image': ('英文.PNG', open(r'英文.PNG', 'rb'), 'image/png')

}

此处content-type 自动识别为multipart/form-data格式,requests模块会自动转换格式,所以image只需要写成上述元组即可,分别为文件名、文件、文件类型。

请求结果

r = requests.post(url, files=files,headers=headers)

responseinfo = str(r.content,encoding = 'utf-8')#返回结果为bytes型,转为str型

print(responseinfo)

r_index = r'"itemstring":"(.*?)"' # 做一个正则匹配

result = re.findall(r_index, responseinfo)

for i in result:

print(i)

下面是测试中文识别的结果,除了有一处换行错了以外,基本正确,识别效果较好。

中文.PNG

Tencent中文.PNG

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值