提取pdf订单内容

最新推荐文章于 2023-02-28 11:57:28 发布

fillwang

最新推荐文章于 2023-02-28 11:57:28 发布

阅读量583

点赞数

分类专栏：笔记文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fillwang/article/details/122186653

版权

笔记专栏收录该内容

20 篇文章 0 订阅

订阅专栏

需求：供应链的小伙伴找到我，说是每周处理pdf订单文件太费事，需要把里面的内容逐个拷贝处理出来，然后粘贴到excel归档，这样的操作挺费事的，每次都要花个半个小时以上的时候，而且还有一个问题，人工操作，指不定哪个格子粘贴不对，导致数据出错。细细想来，确认是这么个情况，客户把pdf文件发送过来，确实需要这样做，当然，就需要花不少的时间了。

分析：当然，从Python的思维出发，直接读取pdf不就完事了？果然，Python有第三方的Library支持，选来选取，最后选择了pdfplumber, 基本上可以满足这个需求。注意：图片pdf是无法读取的，那个要涉及到图像识别了，这里的pdf一般指通过其他应用转成的pdf.

处理过程：

整个过程中，处理的核心为通过pdfplumber, 关于这个库，其中用到了pdfplumber.extract_text()进行整个单页面提取，当然，也可以通过table来提取数据，后面剩下的就是数据处理了，当然可以结合微信，钉钉，邮件之类的方式，把结果推送出去。

核心代码如下：

def get_from_pdf(file_name):

part=''

ProgramNum=''

record=[]

per_record=[]

with pdfplumber.open(file_name) as pdf:

page=pdf.pages[0]

info=page.extract_text()

with open('temp.txt','w',encoding='utf-8') as fw:

fw.write(info)

with open('temp.txt','r',encoding='utf-8') as fr:

lines=fr.readlines()

for line in lines:

line=(line.strip('\n')).strip()

if "Part:" in line:

part=get_part(line)

if "Program Number/Start Date:" in line:

ProgramNum=get_program_number(line)

if "/202" in line:

per_line=line.split(" ")

if "/202" in per_line[0]:

per_record.append(dt_sql(per_line[0]))

per_record.append(per_line[2])

record.append(per_record)

per_record=[]

print(part)

print(ProgramNum)

for line in record:

print(line)

return part,ProgramNum,record

在这个里面，提取的内容是做了中转，先转到本地临时txt中，然后从txt中提取数据并转存为list格式，进行更深入的数据筛选。

小结：

通过python对pdf数据的提取，目前有几个优点：

1. 这个方法可以减少人为操作失误，提供人员工作效率

2. 可以把这个方法应用任何使用pdf数据提取的地方，当然做大量pdf数据提取也是可以的。

更多的应用场景等待挖掘。。。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

fillwang CSDN认证博客专家 CSDN认证企业博客

码龄17年

28: 原创

19万+: 周排名

5万+: 总排名

4万+: 访问

: 等级

574: 积分

49: 粉丝

68: 获赞

16: 评论

128: 收藏

私信

关注

热门文章

分类专栏

笔记 20篇

最新评论

Python通过Socket操作RFID设备-盘点功能
weixin_46666236: 编出来的没有分号，EPC也是一起的，没有分开，
Python获取打印机读数（东芝泰格）
fillwang: 不客气，邮箱解析这种方法确实用的不多，还是要根据实际的应用场景选择方案，找到方法就可以
Python获取打印机读数（东芝泰格）
m0_66707959: 内网采集的话必须在客户电脑安装一个软件或者自己定制个硬件，客户电脑关机的话还会影响，邮箱就是数据解析容易出错，目前我是多次解析然后比对出正确的数据，还是感谢大佬能解答
Python获取打印机读数（东芝泰格）
fillwang: 抄表的方法比较多，主要还是看稳定性，直接网页抄表涉及到内外网的安全性问题，不一定能实现，其实你可以在客户内网部署采集服务，内网采集后通过采集服务调用公网API上传也可以，避免直接访问内网打印机。用邮箱的方式感觉在数据处理方面稍微麻烦一点，这个看你的实际环境了。
Python获取打印机读数（东芝泰格）
m0_66707959: 我个人是一个PHP开发者，我目前是定时把计数器用邮箱发送，然后再到服务端解析保持

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。