python 读取PDF表格

python读取PDF表格

1.相关库函数

利用python读取pdf中的表格部分,并且以EXCEL的形式保存到本地,主要利用了两个库,pdfplumber和pandas,前者用于操作PDF,后者用于操作EXCEL。
先附上相关代码:

import pdfplumber
import pandas as pd
def pdf_read():
    pdf = pdfplumber.open("aaaa.pdf")
    #pages=input("转换表格的页码")
    p0=pdf.pages[37]
    table=p0.extract_table()
    print(table)
    df=pd.DataFrame(table[1:], columns=table[0])
    df.to_excel("bbbb.xlsx")

if __name__ == '__main__':
    pdf_read()

首先利用pdfplumber.open加载表格,然后跳转到表格所在的页码。执行extract_table()后,再将提取出的表格放到pandas的dataframe中,然后利用pandas另存为表格,

2.可能遇到的问题

在生成表格的时候,可能会弹出ImportError: No module named openpyxl,xlrd ,这个时候,只需要pip install openpyxl 就可以了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值