一、安装tencentcloud-sdk-python
PS C:\WINDOWS\system32> pip install tencentcloud-sdk-python
Collecting tencentcloud-sdk-python
Downloading https://files.pythonhosted.org/packages/cb/ee/e21ccba2b6a56295fdee9f6cb12f62536afe5e242d97b7e3dac5fec13421/tencentcloud_sdk_python-3.0.69-py2.py3-none-any.whl (817kB)
|████████████████████████████████| 819kB 13kB/s
Installing collected packages: tencentcloud-sdk-python
Successfully installed tencentcloud-sdk-python-3.0.69
二、文字识别相关接口
接口名称 | 接口功能 |
---|---|
ArithmeticOCR | 算式识别 |
EnglishOCR | 英文识别 |
GeneralAccurateOCR | 通用印刷体识别(高精度版) |
GeneralBasicOCR | 通用印刷体识别 |
GeneralFastOCR | 通用印刷体识别(高速版) |
IDCardOCR | 身份证识别 |
TableOCR | 表格识别 |
VinOCR | 车辆VIN码识别 |
WaybillOCR | 运单识别 |
https://cloud.tencent.com/document/product/866/33515
三、表格识别
3.1、 接口描述
接口请求域名: ocr.tencentcloudapi.com 。
本接口支持图片内表格文档的检测和识别,返回每个单元格的文字内容,支持将识别结果保存为 Excel 格式。
默认接口请求频率限制:10次/秒。
3.2、 输入参数
以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数。
参数名称 | 必选 | 类型 | 描述 |
---|---|---|---|
Action | 是 | String | 公共参数,本接口取值:TableOCR |
Version | 是 | String | 公共参数,本接口取值:2018-11-19 |
Region | 是 | String | 公共参数,详见产品支持的 地域列表。 |
ImageBase64 | 否 | String | 图片的 Base64 值。 支持的图片格式:PNG、JPG、JPEG,暂不支持 GIF 格式。 支持的图片大小:所下载图片经Base64编码后不超过 3M。图片下载时间不超过 3 秒。 图片的 ImageUrl、ImageBase64 必须提供一个,如果都提供,只使用 ImageUrl。 |
ImageUrl | 否 | String | 图片的 Url 地址。 支持的图片格式:PNG、JPG、JPEG,暂不支持 GIF 格式。 支持的图片大小:所下载图片经 Base64 编码后不超过 3M。图片下载时间不超过 3 秒。 图片存储于腾讯云的 Url 可保障更高的下载速度和稳定性,建议图片存储于腾讯云。 非腾讯云存储的 Url 速度和稳定性可能受一定影响。 |
3.3、 输出参数
参数名称 | 类型 | 描述 |
---|---|---|
TextDetections | Array of TextTable | 检测到的文本信息,具体内容请点击左侧链接。 |
Data | String | Base64 编码后的 Excel 数据。 |
RequestId | String | 唯一请求 ID,每次请求都会返回。定位问题时需要提供该次请求的 RequestId。 |
https://cloud.tencent.com/document/api/866/34936
四、Python示例
#文字识别1000次/月
import base64
def imgget(path):
with open(path,"rb") as f:#转为二进制格式
base64_data = base64.b64encode(f.read())#使用base64进行加密
return base64_data.decode('utf-8')
from tencentcloud.common import credential
from tencentcloud.common.profile.client_profile import ClientProfile
from tencentcloud.common.profile.http_profile import HttpProfile
from tencentcloud.common.exception.tencent_cloud_sdk_exception import TencentCloudSDKException
from tencentcloud.ocr.v20181119 import ocr_client, models
try:
cred = credential.Credential("个人SecretId", "个人SecretKey")
httpProfile = HttpProfile()
httpProfile.endpoint = "ocr.tencentcloudapi.com"
clientProfile = ClientProfile()
clientProfile.httpProfile = httpProfile
client = ocr_client.OcrClient(cred, "ap-guangzhou", clientProfile)
req = models.TableOCRRequest()
params=imgget(path)
req.ImageBase64=str(params)
#req.from_json_string(params)
resp = client.TableOCR(req)
print(resp.to_json_string())
except TencentCloudSDKException as err:
print(err)
#print(resp.Data) #Base64 编码后的 Excel 数据
data=base64.b64decode(resp.Data)
#文件保存函数
def save(data,name):
path=name
with open(path,"wb")as f:
f.write(data)
f.close
print(data)
name='腾讯云表格识别结果.xlsx'
save(data,name)