PDF报告的结构化储存-使用百度云人工智能API识别图片中的表格

最新推荐文章于 2024-06-24 09:38:58 发布

Nick_Spider

最新推荐文章于 2024-06-24 09:38:58 发布

阅读量1.4k

点赞数 2

分类专栏： python 图像识别文章标签： python 人工智能图像识别

本文链接：https://blog.csdn.net/weixin_39198406/article/details/106503665

版权

本文介绍了如何使用百度云人工智能API进行PDF中的表格识别，通过获取access_token，上传图片并获取识别结果，实现数据的精准入库。虽然存在复杂表格识别和偶尔的识别缺失问题，但整体提高了效率，自动化完成了数据录入。

摘要由CSDN通过智能技术生成

0 引入

最近有需求需要把pdf上的内容自动录入到数据库，之前是人工录入的，效率很低。
所以研究了一下pdf，上面基本上是整张图片，处于数据敏感我在网上随便找一张图，类似这样：
在这里插入图片描述
假设想要把施工单位、项目负责人、验收结果等字段存到数据库，应该怎么做呢？
用传统的文字识别，是不提供位置信息的，就算提供了，我们想要对上对应的key-value也得费九牛二虎之力。
这里使用现成的方案，百度云人工智能API中的表格文字识别。

1 表格识别

先上链接：百度云表格文字识别
文档地址为：文档
首先根据文档申请API Key和Secret Key之后，就可以开始了。

1.1 获取access_token

import requests

# client_id 为官网获取的AK， client_secret 为官网获取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【官网获取的AK】&client_secret=【官网获取的SK】'
response = requests.get(host)
if response:
    print(response.json()["access_token"])

这里输出的是你的access_token。

1.2 识别图片

这个API是分两步走，第一步是先把图片传到服务器进行识别，后面咱们再调用另外一个接口请求识别的结果。
这一步是先把图片传过去。

最低0.47元/天解锁文章

Nick_Spider

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
PDF报告的结构化储存-使用百度云人工智能API识别图片中的表格

0 引入最近有需求需要把pdf上的内容自动录入到数据库，之前是人工录入的，效率很低。所以研究了一下pdf，上面基本上是整张图片，处于数据敏感我在网上随便找一张图，类似这样：假设想要把施工单位、项目负责人、验收结果等字段存到数据库，应该怎么做呢？用传统的文字识别，是不提供位置信息的，就算提供了，我们想要对上对应的key-value也得费九牛二虎之力。这里使用现成的方案，百度云人工智能API中的表格文字识别。1 表格识别先上链接：百度云表格文字识别文档地址为：文档首先根据文档申请API Ke
复制链接

扫一扫

专栏目录