提取PDF表格到EXCEL

解决小表格漏行问题。

方法一、xlwt

import pdfplumber  
import xlwt  
  
# 读取源pdf文件  
pdf = pdfplumber.open(r"D:\批量查询结果_202405241716539351777.pdf")  
# 创建excel  
workbook = xlwt.Workbook()  
# 创建sheet  
sheet = workbook.add_sheet("Sheet1")  
# 行计数,初始化为0(考虑标题行从1开始)  
row_num = 0  
  
# 循环读取pdf的每一页  
for page in pdf.pages:  
    # 读取表格  
    for table in page.extract_tables():  
        # 找出当前表格的最大列数  
        max_cols = max(len(row) for row in table)  
          
        # 遍历表格中的每一行  
        for row_idx, row in enumerate(table):  
            # 遍历当前行的每一个单元格(包括空单元格)  
            for col_idx in range(max_cols):  
                # 如果单元格存在数据,则写入Excel,否则写入空字符串  
                cell_value = row[col_idx] if col_idx < len(row) else ''  
                sheet.write(row_num + row_idx, col_idx, cell_value)  
          
        # 更新行计数,以便下一个表格从新的行开始写入  
        row_num += len(table)  
  
pdf.close()  
# 保存Excel文件  
workbook.save(r"C:\Users\HUANGJIANJUN\Desktop批量查询结果_202405241716539351777.xls")

方法二、pandas

import pdfplumber  
import pandas as pd  
import numpy as np  
  
# 打开 PDF 文件  
pdf = pdfplumber.open(r"D:\批量查询结果_202405241716539351777.pdf")  
  
# 初始化一个空的 DataFrame 列表  
dataframes = []  
  
# 遍历 PDF 的每一页  
for page in pdf.pages:  
    # 提取页面上的所有表格  
    tables = page.extract_tables()  
      
    # 遍历页面上的每个表格  
    for table in tables:  
        # 将表格数据转换为 DataFrame  
        df = pd.DataFrame(table[:])
        
        # 下句报错。 假设第一行是列名  
        # df = pd.DataFrame(table[1:],columns=table[0]) 
          
        # 处理可能出现的额外列,用 NaN 填充缺失值  
        max_cols = max(len(row) for row in table)  
        if df.shape[1] < max_cols:  
            df = pd.concat([df, pd.DataFrame(np.nan, index=df.index, columns=[f'extra_col_{i+1}' for i in range(df.shape[1], max_cols)])], axis=1)  
          
        # 重置索引  
        df = df.reset_index(drop=True)  
          
        # 添加到 DataFrame 列表中  
        dataframes.append(df)  
  
# 合并所有 DataFrame  
combined_df = pd.concat(dataframes, ignore_index=True)  
  
# 保存到 Excel 文件  
combined_df.to_excel(r"D:\批量查询结果_202405241716539351777.pdf.xlsx", index=False)  
  
# 关闭 PDF 文件  
pdf.close()

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PDF是一种常见的电子文档格式。在处理PDF文件时,有时需要将其中的一些内容提取出来并以表格的形式保存。这时,可以使用PDF批量提取工具,将指定内容提取Excel中。本篇将详细介绍如何使用此工具进行操作。 首先,需要安装一个PDF批量提取工具。目前市场上有许多PDF提取工具可供选择,如Adobe Acrobat、PDFelement等。 接下来,打开需要提取PDF文件、启动PDF批量提取工具,进入提取内容的设置界面。一般可选的提取方式有三种:关键字提取表格提取、区域提取。因为这里的需求是提取指定内容,因此选择关键字提取。在关键字提取界面,输入需要提取的关键字,并设置提取的范围,即选择要提取的单页还是整个PDF文件。 完成设置后,点击“提取”按钮即可开始批量提取工作。此时,PDF批量提取工具会自动搜索整个PDF文件,找到所设的关键字,并提取相关内容。在提取的过程中,可以进行筛选和排序,确保提取出来的内容是想要的。 最后,将提取出来的内容保存为Excel文件。此时,我们便成功地将PDF文件中的指定内容批量提取到了Excel表格中。 总的来说,PDF批量提取工具是一种极其实用的工具,可以大大减轻人工翻阅PDF文件、提取指定内容、整合数据的工作量。当然,在使用工具的过程中,还需要了解PDF技术及工具参数设置等相关知识,才能保证提取的准确性和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值