python提取pdf表格数据,如何用PyPDF和Python从PDF文件中提取表格数据

所以我以前用Java做过,但我对python比较新,所以我需要知道如何执行以下操作:

我有一堆PDF文件,我的python脚本从一个网站下载。这些PDF包含不同产品的产品信息。并非所有PDF都有相同的类别/数据。有一个类别,应用程序,在一个PDF中跨越2个数据行,在另一个PDF中跨越1个数据行。我是通过收集数据的一方,然后另一方,并压缩到一个字典,然而,由于应用程序占用了一个PDF的两行,我被迫将这些单独的列表合并为1。但是,如果我对所有的人都这样做,那么1行的那一行会和下一行混在一起。如果它是1到2行,我怎么能理解呢。这是我的代码:from PyPDF2 import PdfFileReader, PdfFileWriter

import re

file = open('C:/Users/CDS/tester.pdf', 'rb')

pdf = PdfFileReader(file)

text = pdf.getPage(0).extractText()

a = re.findall('Product Attributes(.*?)Minerallac Company', text, re.S)

b = re.findall('Tension Strength(.*?)FE:', text, re.S)

a = ''.join(a)

a = a.strip()

a = a.split('\n')

a[9] = a[9] + a[10]

a.remove(a[10])

b = ''.join(b)

b = b.strip()

b = b.split('\n')

b[4] = b[4] + b[5]

a.remove(a[5])

PDFData = dict(zip(a, b))

categories = ['Application', 'Finish', 'Brand Name']

for category in categories:

print(category + ': ' + PDFData[category])

print('\n')

下面是我比较的两个PDF文件的链接:

如您所见,应用程序行具有不同长度的数据。一条是1条线,另一条是2条线。我如何用PyPDF检测到这一点?有没有比我正在做的更好的方法来获取数据?在

抱歉,如果这有点混乱,让我知道如果你不明白什么!在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值