再见PDF提取收费!我用100行Python代码搞定!去你的收费

03.PDF提取文字

PDF中文字是只允许我们进行只读,但是无法进行更改,所以我们要做的就是提取PDF中的文字信息,然后将提取到的文字写入到word文件当中,让我们能够进行后续的改写。对于文字的提取,我们利用的是pdfminer函数库,其程序如下图所示:

程序首先创建了PDFParser对象来进行PDF文档的分析,PDFDocument对象来将资源对象处理成我们需要的格式,PDFResourceManager对象用来保存共享数据内容;

而PDFPageInterpreter则是用来处理页面的内容。程序中通过for循环来针对PDF文件中的每一页内容进行处理,对于每一页的内容,通过layout来存储页面解析出来的各种对象;

包括文本,图片等信息。但是小编发现,对于图片的提取,pdfminer的效果很不好,所以后面针对于图片的提取;

小编采用的fitz库进行单独的处理,取得很好的图片提取效果。这里,我们先来看一下对于文本的处理结果。

我们的pdf是一个两页的pdf文档,我们只让程序去提取第一页的文本,从上图可以看出,程序完整的提取出第一页的文本,没有任何的错误。

04.PDF提取图片

对于文字的提取处理完毕后,接下来我们就来看一下如何提取pdf中的图片,并将其保存到本地。对于图片的提取,程序如下图所示:

上述的程序中,利用fitz库来提取PDF文档中的对象,然后通过字符串匹配来判断对象是不是图片类型,如果不是的话,我们直接进行跳过即可。如果判断对象是图片类型的话,我们边可以通过创建PixMap对象来提取图片,并保存到我们指定的路径下即可。结果如下图所示:

上图可以看出,程序正确的将图片进行了提取,从而达到了我们的图片提取的目的,可以在短短的几秒内完成pdf文档的所有图片的提取。

05.PDF提取表格

对于PDF中表格的提取,利用的是pdfplumber库,程序如下图所示:

程序中,通过pdfplumber库读取PDF文件,针对于文件中的每一页,提取表格数据,然后通过pandas将表格数据保存到根目录下的tables文件夹中,结果如下图所示。

通过结果的展示,可以看出,对于PDF中的表格数据,程序能够做到较为准确的提取。

06.交互界面的制作

交互界面的制作,程序利用的是PySimpleGUI库进行处理,其部分程序如下图所示。

PySimpleGUI库集合了tkinter,wxpython、PyQt等GUI库的优势,其最重要的特点是用简单少量的代码就可以制作出精美的界面。程序执行的可视化界面如下图所示。

07.软件打包

为了方便大家的使用,小编将程序打包为exe文件,需要注意的是,为了减少大家对于exe文件执行时的报错,需要在win10(64bit)的环境下进行运行。大家可以下载exe文件,直接进行pdf文件内容的提取。

如何获取源码:

①3000多本Python电子书有 ②Python开发环境安装教程有 ③Python400集自学视频有 ④软件开发常用词汇有 ⑤Python学习路线图有 ⑥项目源码案例分享有 如果你用得到的话可以直接拿走,在我的QQ技术交流群里群号:754370353(纯技术交流和资源共享,广告勿入)以自助拿走 点击这里 领取

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
img
img



既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Python开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加V获取:vip1024c (备注Python)
img

最后

🍅 硬核资料:关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。
🍅 面试题库:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。
🍅 知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。

题可能不是问题,求资源在群里喊一声。

🍅 面试题库:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。
🍅 知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。

  • 17
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值