今天继续与大家分享从PDF文档中提取表格并保存到Excel 表格的技巧,表格存在于PDF文档中的情形有几种:
1、一个PDF文档只有一个表格,并且表格只在PDF文档的一个页面上,不会跨页。
2、一个PDF文档有多个表格,并且一个表格也是只存在PDF文档的一个页面上。
3、一个PDF文档有多个表格,其中有一些PDF页面有2个以上表格,但没有表格是跨页的。
4.、PDF 文档上的一些表格,表格太长,一个表格在于2个PDF页面上,属于跨页面的情况。
上述第1、2各情形,提取起来比较简单,第3、4种情形提取比较复杂,需要特殊设置一些参数。
本文 camelot 库的功能,来提取表格信息,使用pandas库来转化为Excel表,使用openpyxl库来设置表格格式。
这是本文使用的 示例PDF文档 可参照使用。
重点解析:
1、关于表格行数的设置:示例PDF文档中共有4个表格,第二个表格有6行,其余3个表格各有7行,注意列表中数字的顺序。这是因为有表格跨页面,需要以此作为分割各个列表的参数。
b_list=[7,6,7,7] # 各个表格的行数,
2、关于需要合并单元格