提取富文本里得图片_批量提取pdf文件信息(图片、表格、文本等)

1f25d938a7eb952acea3d5cc784c53d0.png

53bb0de925289dbf95e33fdccfea0c08.png

作者:Excel催化剂

来源:微信公众号「Excel催化剂」(ID:ExcelCuiHuaJi)

今天的文章是由我们的伙伴「Excel催化剂」带来的,一起来看看吧。

日常办公场合中,除了常规的Excel、Word、PPT等文档外,还有一个不可忽略的文件格式是pdf格式,而对于想从pdf文件中获取信息时,常规方法将变得非常痛苦和麻烦。此篇给大家送一pdf文件提取信息大集合,几乎可涵盖日常pdf文件提取信息的所有场景。

业务场景

在日常工作中,为了保护数据免于被二次利用和为了在文件分发过程中,可以不受其他电脑因为软件版本不同等原因导致文件不能打开或打开格式版面大变形,将要分发的文件,无论是Excel、Word或PPT,转为pdf格式,是一个不错的主意。

在pdf文件中,可以按原样保留所有的信息和排版,用户无论什么版本的OFFICE甚至都不需要安装OFFICE软件,只需安装一个小小的PDF浏览器,即可完成文件的浏览。

但也正因为其简单和不可编辑性,导致需要提取里面的内容时,变得异常复杂。好一点的情形是在转换后,文件仍然保持文本格式,可以复制其中的文本出来。

但大量的pdf文件,仅靠手工去复制也是变得很不现实和效率低下。就算有专门的转换软件,不是需要付费就是只能转换一小部分内容或只能一次性转换一个文件,并且转换后的格式可能也会大变形。

在Excel催化剂的世界中,所有数据都是有利用的价值,包括纯图片的格式。如何能够快速、批量化地从非结构化的数据中提取到想要的信息,是十分考验技术水平的。

而Excel催化剂的初心就是为了将这个技术门槛不断地降低,最好能够降至所有普通Excel用户都能掌握。使用Excel催化剂的辅助,犹如化学反应中添加了催化剂一般,反应速度、性能提升百倍、千倍。

今天很高兴告诉大家,在处理pdf文件中,Excel催化剂能帮到大家很多很多。

实现功能

本想着一个个功能制作,并接连地发布出来,但后来想想,还是要有节制,让相同、相近的功能聚集一起,阅读时更有连贯性,同样也为了纪念第88波这样一个很有寓意的数字。

功能比较多,实现也比较简单,不作详尽展开,后期会做视频录制给大家更为直观和更易学习掌握。

83ed2d74b3324f8fb508360022b6593a.png

功能入口

功能一:批量PDF转jpg

只需选定pdf文件的路径,即可将其批量转换为jpg格式,此处的转换是pdf文件中一页纸转换一张图片,多页转换多张,最后的图片有后缀递增序号来区分。

此场景可以更进一步保护pdf里的信息,或者用于图片OCR文本识别时的提取,例如上一波用到的百度AI接口可以识别图片文本信息,对于格式规范的如增值税发票、身份证等,提取出来的文本是结构化的文本,即可识别出对应的内容属于什么字段下的内容。

一般的人工智能OCR识别都需要先转换为图像才能调用接口来识别,没有现成的直接对pdf文件的识别。

7e9da2076dcdb07ae98c6351d4f89406.png

pdf文件转换后为图片

功能二:批量提取文本

若pdf文件只是Excel、Word、PPT等文件简单另存为pdf格式时,pdf文件会保留着可复制文本的特性,若使用人工智能OCR接口识别不理想,可使用此功能进行直接文本的提取。

人工智能OCR接口一般来说是付费的,需联网的,准确性也没有那么传说和期待地那么高,如果pdf文件为文本型的,建议首先直接使用此提取文本功能,可离线操作,无次数限制,提取效率和性能也高。

fbfe030cd9dea10d8c527f27f87102a8.png

例如这样一个WORD直接转换pdf的文件,适合直接提取文本

79a9f2ed84cba8f497b88941be36ffa5.png

提取结果,细分到页码和页内行号等信息保留

功能三:批量提取内部图片

有时可能需要从pdf文件中提取其内部的图片文件,而非将整个pdf文件的一页转换为图片,此功能在此特别适用,可将pdf内保存的图片提取出来。

00977bcf5ba34857a0054d87f7229dec.png在pdf文档内有图片,只想提取图片

在一个pdf文件中,有多张图片在内时,使用页码数和图片序号区分。

e9199fda177ca515bb6dbb55b99a067a.png图片提取出来后效果

功能四:批量提取内部表格数据

若pdf文档内含规范的表格数据,而最终仅仅想提取这个表格数据在Excel上进行再处理加工,可尝试使用提取表格功能。

pdf文件内部没有表格的概念,它不过是在一张大画布上按坐标位置画上内容而已,所以有可能提取的准确性有限。

下面以一个测试文件简单讲解下原理。见下图:

1707eb2c8ee53316776778d25e83c3d4.png 提取的pdf源文件

在一个pdf文件上有多个表格,需要手动选择哪个表格内容是要提取的。

485691472d3dc2ab100c23af79aeea39.png 在一个pdf文件上有多个表格,点上方列表后可浏览表格结构

此功能分单个文件的提取和多个文件提取两组,当使用多个文件提取时,请务必保证pdf文件的结构是一致的,如提取的表格都是从开头起的第几个表格。并且表格的字段名和字段位置和数量都是一致的,才能提取成功。

241ca6a68a66edaf6a26443a5ea347b3.png 测试过程中,直接复制多个文件,肯定一致的文件表格结构

结语

在Excel催化剂的很多功能中,相信也可以一窥在Excel环境下的数据处理的灵活性和效率性之高。也可以看到,从数据到见解之间,是一条多么深的鸿沟,需要许多的技术才能填平这个鸿沟,顺利从原始数据走到我们需要的数据报表、数据洞察的位置。

很高兴,Excel催化剂一直在努力,不断地为大家输送高性能、强大威力的数据处理及分析的能力,让大家走得更轻松,更快地到达数据的终点。

最后,虽然Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!

再次感谢 「Excel催化剂」的分享

033be34b9e781f9b43c567be114592a9.png


相关文章

有备无患,轻量在线PDF工具,能上网就能用

9012年最重要的10个Excel公式

如何为公司每个人批量制作门卡、名片?

3a13777dc6c9ee6d9bba9a8a952f4d1d.gif

7340be48c186eae7afc65b49b8df587d.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值