当在pdf上看到自己想用的表格,却无法将其复制下来的时候,只能默默地打开excel对照着pdf表格的形式敲打出来,既费时又费力!这里介绍如何用python程序将pdf上的表格自动转化为excel表!
1.使用的库
简单介绍一下要使用的库:pdfplumber 和xlwt
1.pdfplumber
pdfplumber使用来解析pdf的文字与表格。该库与之前一篇文章python办公自动化——PDF转Word所使用的pdfminer库类似,都是从pdf里面提取信息。但不同的是pdfminer侧重提文字,对表格的提取不是很好,而pdfplumber 对提取表格的支持比较好。
请点击输入描述
2.xlwt
xlwt是python用来操作excel的一个库,可以用它对excel进行创建表单、写入指定单元格、指定单元格样式等人工实现的功能等一系列操作。
2.pdf转excel
话不多说,接下来就用这两个库完成pdf转excel的操作。
思路:
pdfplumber获取当前页面的全部文本信息,包括表格的文字。在当前页信息中通过extract_tables()方法提取表格。将内容写入到excel中。代码:
import pdfplumber
import xlwt
workbook = xlwt.Workbook()
sheet = workbook.add_sheet('Shee