python提取pdf表格数据,如何用PyPDF和Python从PDF文件中提取表格数据

最新推荐文章于 2024-05-24 17:41:56 发布

音速键盘猫

最新推荐文章于 2024-05-24 17:41:56 发布

阅读量265

点赞数

文章标签： python提取pdf表格数据

所以我以前用Java做过，但我对python比较新，所以我需要知道如何执行以下操作：

我有一堆PDF文件，我的python脚本从一个网站下载。这些PDF包含不同产品的产品信息。并非所有PDF都有相同的类别/数据。有一个类别，应用程序，在一个PDF中跨越2个数据行，在另一个PDF中跨越1个数据行。我是通过收集数据的一方，然后另一方，并压缩到一个字典，然而，由于应用程序占用了一个PDF的两行，我被迫将这些单独的列表合并为1。但是，如果我对所有的人都这样做，那么1行的那一行会和下一行混在一起。如果它是1到2行，我怎么能理解呢。这是我的代码：from PyPDF2 import PdfFileReader, PdfFileWriter

import re

file = open('C:/Users/CDS/tester.pdf', 'rb')

pdf = PdfFileReader(file)

text = pdf.getPage(0).extractText()

a = re.findall('Product Attributes(.*?)Minerallac Company', text, re.S)

b = re.findall('Tension Strength(.*?)FE:', text, re.S)

a = ''.join(a)

a = a.strip()

a = a.split('\n')

a[9] = a[9] + a[10]

a.remove(a[10])

b = ''.join(b)

b = b.strip()

b = b.split('\n')

b[4] = b[4] + b[5]

a.remove(a[5])

PDFData = dict(zip(a, b))

categories = ['Application', 'Finish', 'Brand Name']

for category in categories:

print(category + ': ' + PDFData[category])

print('\n')

下面是我比较的两个PDF文件的链接：

如您所见，应用程序行具有不同长度的数据。一条是1条线，另一条是2条线。我如何用PyPDF检测到这一点？有没有比我正在做的更好的方法来获取数据？在

抱歉，如果这有点混乱，让我知道如果你不明白什么！在

音速键盘猫

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python提取pdf表格数据,如何用PyPDF和Python从PDF文件中提取表格数据

所以我以前用Java做过，但我对python比较新，所以我需要知道如何执行以下操作：我有一堆PDF文件，我的python脚本从一个网站下载。这些PDF包含不同产品的产品信息。并非所有PDF都有相同的类别/数据。有一个类别，应用程序，在一个PDF中跨越2个数据行，在另一个PDF中跨越1个数据行。我是通过收集数据的一方，然后另一方，并压缩到一个字典，然而，由于应用程序占用了一个PDF的两行，我被迫将这...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。