python读取PDF表格
1.相关库函数
利用python读取pdf中的表格部分,并且以EXCEL的形式保存到本地,主要利用了两个库,pdfplumber和pandas,前者用于操作PDF,后者用于操作EXCEL。
先附上相关代码:
import pdfplumber
import pandas as pd
def pdf_read():
pdf = pdfplumber.open("aaaa.pdf")
#pages=input("转换表格的页码")
p0=pdf.pages[37]
table=p0.extract_table()
print(table)
df=pd.DataFrame(table[1:], columns=table[0])
df.to_excel("bbbb.xlsx")
if __name__ == '__main__':
pdf_read()
首先利用pdfplumber.open
加载表格,然后跳转到表格所在的页码。执行extract_table()
后,再将提取出的表格放到pandas的dataframe中,然后利用pandas另存为表格,
2.可能遇到的问题
在生成表格的时候,可能会弹出ImportError: No module named openpyxl,xlrd ,这个时候,只需要pip install openpyxl 就可以了。