python 读取pdf cid_python使用pdfminer解析pdf文件的方法示例

最新推荐文章于 2022-05-26 16:08:05 发布

Demeyi-邓子

最新推荐文章于 2022-05-26 16:08:05 发布

阅读量1k

点赞数

文章标签： python 读取pdf cid

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42131405/article/details/113644515

版权

本文介绍了如何使用Python库PDFMiner从PDF文件中提取文本内容。PDFMiner是一个专注于文本分析的工具，支持PDF-1.7规范，包含PDF到HTML转换、大纲提取等功能。通过PDFParser、PDFDocument、PDFPageInterpreter等类实现编程方式的PDF转换。文中提供了一个PDFUtils类的示例代码，展示如何将PDF转换为文本。

摘要由CSDN通过智能技术生成

最近要做个从 pdf 文件中抽取文本内容的工具，大概查了一下 python 里可以使用 pdfminer 来实现。下面就看看怎样使用吧。

PDFMiner是一个可以从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它注重的完全是获取和分析文本数据。PDFMiner允许你获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器，可以把PDF文件转换成HTML等格式。它还有一个扩展的PDF解析器，可以用于除文本分析以外的其他用途。

PDFMiner内置两个好用的工具：pdf2txt.py和dumppdf.py

pdf2txt.py从PDF文件中提取所有文本内容。但不能识别画成图片的文本，这需要特征识别。对于加密的PDF你需要提供一个密码才能解析，对于没有提取权限的PDF文档你得不到任何文本。

dumppdf.py把PDF文件内容变成pseudo-XML格式。这个程序主要用于debug，但是它也可能用于提取一些有意义的内容(比如图片)。

官方主页：https://euske.github.io/pdfminer/

其特征有：1、完全使用python编写。(适用于2.4或更新版本)2、解析，分析，并转换成PDF文档。3、PDF-1.7规范的支持。(几乎)4、中日韩语言和垂直书写脚本支持。5、各种字体类型(Type1、TrueType、Type3，和CID)的支持。6、基本加密(RC4)的支持。7、PDF与HTML转换。8、纲要(TOC)的提取。9、标签内容提取。10、通过分组文本块重建原始的布局。

如果你的Python有安装pip模块，就可以通过命令“python pip install pdfminer”，自动安装pdfminer。

解析pdf文件用到的类： PDFParser：从一个文件中获取数据

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。