python (五) 读取PDF中的表格信息，并转化为excel

最新推荐文章于 2025-04-27 14:49:16 发布

原创最新推荐文章于 2025-04-27 14:49:16 发布

· 584 阅读

1 ·

版权

文章标签：

#pdf

需要安装的模块

import pdfplumber
import pandas as pd

代码段：

# 读取pdf文件,保存为pdf实例
for i in range(1, 10):
    pdf = pdfplumber.open('pdf_to_excel.pdf')
    # 访问第一页
    first_page = pdf.pages[i]
    # 自动读取表格信息,返回列表
    table = first_page.extract_table()
    print(table)
    # 将列表转化为dataframe
    table_data = pd.DataFrame(table[1:], columns=table[0])
    # 保存为excel
    table_data.to_excel('test_pdf{0}.xlsx'.format(i), index=False)