1:首先要具备对应的python环境,其他语言如java也是ok的 ,官网有对应的API
2:提前准备好你的文件。
3:中间有个sleep的处理,是为了避免总是频繁调取接口导致问题,毕竟是免费的嘛,都能理解
4:最关键的一点,自己得申请一个账号,然后拿到access_token,这个是你调用服务的凭证
都给你准备好了直接看这个:
https://blog.csdn.net/weixin_36630761/article/details/108253355
import os
import base64
import requests
import json
import time
def get_ocr(fileName):
request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic"
# 二进制方式打开图片文件
f = open(fileName, 'rb')
img = base64.b64encode(f.read())
params = {"image": img}
access_token = '这个是你自己需要去申请的access_token'
request_url = request_url + "?access_token=" + access_token
headers = {'content-type': 'application/x-www-form-urlencoded'}
response = requests.post(request_url, data=params, headers=headers)
if response:
# print (response.json())
dt = response.json()
json_str = json.dumps(dt)
data = json.loads(json_str)
list_json = (data['words_result'])
for jd in list_json:
print(jd['words'])
writeData2Text("C:\\Users\\Desktop\\dev\\koubei1.txt",jd['words'])
def writeData2Text(targetFile,datas):
with open(targetFile, mode='a') as filename:
filename.write(datas)
filename.write('\n') # 换行
path = 'C:\\Users\\Desktop\\dev\\koubeijietu' #待读取文件的文件夹绝对地址
request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic"
files = os.listdir(path) #获得文件夹中所有文件的名称列表
# list0 = [] #存放path路径中的文件内容
# list1 = [] #存放path中子文件夹的文件内容
for file in files:
time.sleep(2)
if not os.path.isdir(file): #判断是否是文件夹
file_name = path+"\\"+file
get_ocr(file_name)
else:
print("是文件夹")
if __name__ == "__main__":
print("main method")
结果展示:
准确率还是很高的 这是个我解析的汽车之家的口碑的数据。