提取PDF表格到EXCEL

最新推荐文章于 2024-08-28 19:51:24 发布

hwangjianjun

最新推荐文章于 2024-08-28 19:51:24 发布

阅读量163

点赞数 2

文章标签： pdf excel java

本文链接：https://blog.csdn.net/qq_30397619/article/details/139376022

版权

解决小表格漏行问题。

方法一、xlwt

import pdfplumber  
import xlwt  
  
# 读取源pdf文件  
pdf = pdfplumber.open(r"D:\批量查询结果_202405241716539351777.pdf")  
# 创建excel  
workbook = xlwt.Workbook()  
# 创建sheet  
sheet = workbook.add_sheet("Sheet1")  
# 行计数，初始化为0（考虑标题行从1开始）  
row_num = 0  
  
# 循环读取pdf的每一页  
for page in pdf.pages:  
    # 读取表格  
    for table in page.extract_tables():  
        # 找出当前表格的最大列数  
        max_cols = max(len(row) for row in table)  
          
        # 遍历表格中的每一行  
        for row_idx, row in enumerate(table):  
            # 遍历当前行的每一个单元格（包括空单元格）  
            for col_idx in range(max_cols):  
                # 如果单元格存在数据，则写入Excel，否则写入空字符串  
                cell_value = row[col_idx] if col_idx < len(row) else ''  
                sheet.write(row_num + row_idx, col_idx, cell_value)  
          
        # 更新行计数，以便下一个表格从新的行开始写入  
        row_num += len(table)  
  
pdf.close()  
# 保存Excel文件  
workbook.save(r"C:\Users\HUANGJIANJUN\Desktop批量查询结果_202405241716539351777.xls")

方法二、pandas

import pdfplumber  
import pandas as pd  
import numpy as np  
  
# 打开 PDF 文件  
pdf = pdfplumber.open(r"D:\批量查询结果_202405241716539351777.pdf")  
  
# 初始化一个空的 DataFrame 列表  
dataframes = []  
  
# 遍历 PDF 的每一页  
for page in pdf.pages:  
    # 提取页面上的所有表格  
    tables = page.extract_tables()  
      
    # 遍历页面上的每个表格  
    for table in tables:  
        # 将表格数据转换为 DataFrame  
        df = pd.DataFrame(table[:])
        
        # 下句报错。 假设第一行是列名  
        # df = pd.DataFrame(table[1:],columns=table[0]) 
          
        # 处理可能出现的额外列，用 NaN 填充缺失值  
        max_cols = max(len(row) for row in table)  
        if df.shape[1] < max_cols:  
            df = pd.concat([df, pd.DataFrame(np.nan, index=df.index, columns=[f'extra_col_{i+1}' for i in range(df.shape[1], max_cols)])], axis=1)  
          
        # 重置索引  
        df = df.reset_index(drop=True)  
          
        # 添加到 DataFrame 列表中  
        dataframes.append(df)  
  
# 合并所有 DataFrame  
combined_df = pd.concat(dataframes, ignore_index=True)  
  
# 保存到 Excel 文件  
combined_df.to_excel(r"D:\批量查询结果_202405241716539351777.pdf.xlsx", index=False)  
  
# 关闭 PDF 文件  
pdf.close()