关于Python使用Camelot库优化提取PDF三线表的技巧，解决识别的表字段名错位，过多的空白单元的问题

最新推荐文章于 2024-03-20 07:30:37 发布

新来的大狮

最新推荐文章于 2024-03-20 07:30:37 发布

阅读量2.9k

点赞数 3

分类专栏： camelot 文章标签： python Python开发-文本解析和操作

本文链接：https://blog.csdn.net/new_joined_lion/article/details/107190845

版权

camelot 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

关于Python使用Camelot库优化提取PDF三线表的技巧：解决识别的表字段名错位，过多的空白单元的问题

参考文章：camelot官方文档

依赖库

camelot

问题描述

测试文件

自行准备的含有三线表的PDF文件

原始代码

tables = camelot.read_pdf(path, pages=str(pageID), flavor="stream", table_areas=[area])

原始提取效果

1：内存中提取时出现的字段错位

在这里插入图片描述

2：输出文件中出现的过多空白单元

在这里插入图片描述

原因分析

针对表字段错位：

可能是由于Camelot库在进行扫描过程中，对 单行高度的检测阈值 设置过低。查阅源码后其阈值默认为2，可以进行修改为10。

针对空白单元：

可能是由于Camelot库在扫描的过程中，对 单行高度的检测阈值 设置过高，导致获得了多余的 \n 换行符，使得换行符之后的文本内容没有写入输出文件。

内存中由于单行高度的检测阈值设置过高，所出现的情况：

在这里插入图片描述

解决方案

针对表字段错位

将 单行高度的检测阈值 设置 合适的值，官方推荐为 10 ，（默认为2），当阈值设置超过10后，会导致多行并为一行的情况发生。
即，设置 row_tol属性，例：row_tol=10

针对空白单元

对提取出的文本信息，将其中的“\n”字符过滤掉。
即，设置strip_text属性，例： strip_text="\n"

最终实现代码

tables = camelot.read_pdf(path, pages=str(pageID), flavor="stream", table_areas=[area], row_tol=10,
                                  strip_text="\n")

最终效果

优化后识别的Table1 （内存中表示）

在这里插入图片描述

优化后识别的Table1 （输出文件中表示）

在这里插入图片描述

新来的大狮

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录