解决：使用camelot提取PDF中表格框与图像位置不对应问题

Liekkas Kono

已于 2024-02-02 15:14:26 修改

阅读量851

点赞数

分类专栏：工具文章标签： PDF表格提取 Camelot pdfminer 图像校正坐标转换

于 2022-06-15 22:07:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shiwanghualuo/article/details/125305490

版权

工具专栏收录该内容

57 篇文章 5 订阅

订阅专栏

引言

在研究表格结构还原时，针对基于文本为基础的PDF，是可以尝试直接提取表格的，不用走OCR模型。
基于文本为基础的意思就是用PDF阅读器打开PDF文件，可以直接复制的。

Camelot only works with text-based PDFs and not scanned documents. (As Tabula explains, “If you can click and drag to select text in your table in a PDF viewer, then your PDF is text-based”.)

camelot提取表格相关代码

foo.pdf下载链接：link
说明1：因为camelot底部是依赖pdfminer库来做PDF内容提取的，所以其获得的内容坐标值中的y值需要用page的高减去获得的值，才是正常框的值。
说明2：同样因为是基于pdfminer库提取内容，所以默认提取内容，获得框坐标时，dpi值默认为72，而camelot的read_pdf函数获得图像，其dpi值为300。这就有了表格框坐标与获得图像位置不对应的问题。这块提了issue-486，可以移步去那里详细看一下。

对应校正代码：

import camelot
import copy
import cv2


def draw_bbox(img, start_point, end_point, ratio=1):
    start_point = tuple(map(lambda x: round(x * ratio), start_point))
    end_point = tuple(map(lambda x: round(x * ratio), end_point))
    cv2.rectangle(img, start_point, end_point, (0, 255, 0), 2)


pdf_path = 'foo.pdf'
tables = camelot.read_pdf(pdf_path, flavor='lattice', backend="poppler")
table = tables[0]
table_x0, table_y0, table_x1, table_y1 = table._bbox
img = table._image[0]

ratio = 300 / 72
pdf_height = img.shape[0] / ratio
new_tmp_img = copy.deepcopy(img)
draw_bbox(new_tmp_img,
          start_point=(table_x0, pdf_height - table_y0),
          end_point=(table_x1, pdf_height - table_y1),
          ratio=ratio)
cv2.imwrite('foo_right.jpg', new_tmp_img)

结果图：

Liekkas Kono CSDN认证博客专家 CSDN认证企业博客

码龄10年

171: 原创

4万+: 周排名

8473: 总排名

61万+: 访问

: 等级

4080: 积分

335: 粉丝

1069: 获赞

260: 评论

3144: 收藏

私信

关注

热门文章

分类专栏

工具 57篇
obsidian 2篇
表格识别 1篇
RapidAI 20篇
开源 3篇
论文学习 22篇
杂项 24篇
深度学习算法核心代码系列 5篇
Python 25篇
深度学习 24篇
PyTorch 11篇

最新评论

无线表格识别模型LORE转换库：ConvertLOREToONNX
GlitchGuru: 你好，博主，我想问一下官方代码开源的是pt文件，直接用onnx将pth转成onnx文件嘛
Obsidian复制代码块代码正确方式
Liekkas Kono: 没遇到过。粘贴时候，试试只粘贴纯文本（Ctrl + Shift + V）
Obsidian复制代码块代码正确方式
凡一61: 请问一下你有没有遇到过vscode往ob复制然后再从ob到vscode时候出现第二种情况的。已安装code styler插件我从vscode复制正常代码到ob会加很多换行，如下 [code=python] from pydantic import BaseModel,validator from datetime import datetime class Book(BaseModel): publish_date: datetime @validator("publish_date") def conver_to_datetime(cls, user_input): if isinstance(user_input,str): return datetime.strptime(user_input, '%Y-%m-%d %H:%M:%S') if isinstance(user_input,datetime): return user_input raise TypeError("不支持的参数类型，仅支持:str 和 datetime") book = Book(name='attrs',price=1.0,author='hynek Hynek Schlawack', publish_date='2021-09-13 16:03:00') print(book) [/code] 然后再从ob到vscode就会出现第二种情况
Obsidian复制代码块代码正确方式
凡一61: 请问一下你有没有遇到过vscode往ob复制然后再从ob到vscode时候出现第二种情况的。已安装code styler插件我从vscode复制正常代码到ob会加很多换行，如下 [code=python] from pydantic import BaseModel,validator from datetime import datetime class Book(BaseModel): publish_date: datetime @validator("publish_date") def conver_to_datetime(cls, user_input): if isinstance(user_input,str): return datetime.strptime(user_input, '%Y-%m-%d %H:%M:%S') if isinstance(user_input,datetime): return user_input raise TypeError("不支持的参数类型，仅支持:str 和 datetime") book = Book(name='attrs',price=1.0,author='hynek Hynek Schlawack', publish_date='2021-09-13 16:03:00') print(book) [/code] 然后再从ob到vscode就会出现第二种情况
Obsidian vs Typora
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。