[PDF表格] 针对PDF文档中多表格并且跨页面的提取

          今天继续与大家分享从PDF文档中提取表格并保存到Excel 表格的技巧,表格存在于PDF文档中的情形有几种:

1、一个PDF文档只有一个表格,并且表格只在PDF文档的一个页面上,不会跨页。

2、一个PDF文档有多个表格,并且一个表格也是只存在PDF文档的一个页面上。

3、一个PDF文档有多个表格,其中有一些PDF页面有2个以上表格,但没有表格是跨页的。

4.、PDF 文档上的一些表格,表格太长,一个表格在于2个PDF页面上,属于跨页面的情况。

上述第1、2各情形,提取起来比较简单,第3、4种情形提取比较复杂,需要特殊设置一些参数。

         本文 camelot 库的功能,来提取表格信息,使用pandas库来转化为Excel表,使用openpyxl库来设置表格格式。

     这是本文使用的   示例PDF文档 可参照使用。

        重点解析:

       1、关于表格行数的设置:示例PDF文档中共有4个表格,第二个表格有6行,其余3个表格各有7行,注意列表中数字的顺序。这是因为有表格跨页面,需要以此作为分割各个列表的参数。

    b_list=[7,6,7,7]                             #  各个表格的行数,

2、关于需要合并单元格

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值