关于Python使用Camelot库优化提取PDF三线表的技巧，解决识别的表字段名错位，过多的空白单元的问题

最新推荐文章于 2024-05-13 14:54:22 发布

新来的大狮

最新推荐文章于 2024-05-13 14:54:22 发布

阅读量2.5k

点赞数 3

分类专栏： camelot 文章标签： python Python开发-文本解析和操作

本文链接：https://blog.csdn.net/New_joined_lion/article/details/107190845

版权

camelot 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

关于Python使用Camelot库优化提取PDF三线表的技巧：解决识别的表字段名错位，过多的空白单元的问题

参考文章：camelot官方文档

依赖库

camelot

问题描述

测试文件

自行准备的含有三线表的PDF文件

原始代码

tables = camelot.read_pdf(path, pages=str(pageID), flavor="stream", table_areas=[area])

原始提取效果

1：内存中提取时出现的字段错位

在这里插入图片描述

2：输出文件中出现的过多空白单元

在这里插入图片描述

原因分析

针对表字段错位：

可能是由于Camelot库在进行扫描过程中，对 单行高度的检测阈值 设置过低。查阅源码后其阈值默认为2，可以进行修改为10。

针对空白单元：

可能是由于Camelot库在扫描的过程中，对 单行高度的检测阈值 设置过高，导致获得了多余的 \n 换行符，使得换行符之后的文本内容没有写入输出文件。

内存中由于单行高度的检测阈值设置过高，所出现的情况：

在这里插入图片描述

解决方案

针对表字段错位

将 单行高度的检测阈值 设置 合适的值，官方推荐为 10 ，（默认为2），当阈值设置超过10后，会导致多行并为一行的情况发生。
即，设置 row_tol属性，例：row_tol=10

针对空白单元

对提取出的文本信息，将其中的“\n”字符过滤掉。
即，设置strip_text属性，例： strip_text="\n"

最终实现代码

tables = camelot.read_pdf(path, pages=str(pageID), flavor="stream", table_areas=[area], row_tol=10,
                                  strip_text="\n")

最终效果

优化后识别的Table1 （内存中表示）

在这里插入图片描述

优化后识别的Table1 （输出文件中表示）

在这里插入图片描述

新来的大狮

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
关于Python使用Camelot库优化提取PDF三线表的技巧，解决识别的表字段名错位，过多的空白单元的问题

关于Python使用Camelot库优化提取PDF三线表的技巧：解决识别的表字段名错位，过多的空白单元的问题问题描述测试文件原始代码原始提取效果原因分析解决方案针对表字段错位针对空白单元最终实现代码最终效果参考文章：camelot官方文档问题描述测试文件使用的待测试的提取PDF文件： Table 1原始代码tables = camelot.read_pdf(path, pages=str(pageID), flavor="stream", table_areas=[area])原始提
复制链接

扫一扫