python pdfplumber 转换多页PDF表格为Excel

import pdfplumber as pr
import pandas as pd
pdf = pr.open('21.PDF')
ps = pdf.pages
i1 = 0
table1 = [[0 for i in range(20)] for j in range(200)]
for p in range(9):
    pg = ps[p]
    tables = pg.extract_tables()
    table = tables[0]
    print(table)
    df = pd.DataFrame(table[1:],columns = table[0])

    for i in range(len(table)):
        for j in range(len(table[i])):
            #table[i][j] = table[i][j].replace('\n','')
            table1[i1][j] = table[i][j]
        i1 = i1+1
    df1 = pd.DataFrame(table1[1:],columns = table1[0])
    df1.to_excel('1.xlsx')

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
可以使用pdfplumber库和pandas库来实现将多个PDF文件中的内容批量写入Excel。下面是一个示例代码: ```python import os import pandas as pd import pdfplumber # 定义PDF文件夹路径和Excel文件路径 pdf_folder = "path/to/pdf/folder" excel_file = "path/to/excel/file.xlsx" # 获取PDF文件列表 pdf_files = [f for f in os.listdir(pdf_folder) if f.endswith(".pdf")] # 创建一个空的DataFrame来保存数据 df = pd.DataFrame(columns=["File", "Page", "Text"]) # 遍历PDF文件列表 for pdf_file in pdf_files: pdf_path = os.path.join(pdf_folder, pdf_file) # 打开PDF文件 with pdfplumber.open(pdf_path) as pdf: # 遍历PDF的每一页 for i, page in enumerate(pdf.pages): # 提取页面文本内容 text = page.extract_text() # 将数据添加到DataFrame中 df = df.append({"File": pdf_file, "Page": i+1, "Text": text}, ignore_index=True) # 将DataFrame写入Excel文件 df.to_excel(excel_file, index=False) ``` 在上述代码中,你需要将`pdf_folder`替换为包含要处理PDF文件的文件夹路径,将`excel_file`替换为你想要保存结果的Excel文件路径。该代码会遍历PDF文件夹中的每个PDF文件,并将每一页的文本内容提取出来,然后将结果保存到指定的Excel文件中。每行数据包括文件名、页码和文本内容。 请注意,你需要安装pdfplumber和pandas库,可以使用以下命令安装: ``` pip install pdfplumber pandas ``` 希望对你有所帮助!如果还有其他问题,请随时提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值