python读取xps文件_Python操做PDF-文本和图片提取（使用PyPDF2和PyMuPDF）

最新推荐文章于 2024-04-15 16:03:01 发布

HISAHARA

最新推荐文章于 2024-04-15 16:03:01 发布

阅读量839

点赞数

文章标签： python读取xps文件

本文链接：https://blog.csdn.net/weixin_29865333/article/details/113678362

版权

本文介绍了Python处理PDF文件的库PyPDF2和PyMuPDF，展示了如何使用它们来提取文本和图像，以及如何使用PyPDF2将PDF拆分为单个页面。PyMuPDF在保持原始文档结构方面具有优势。

摘要由CSDN通过智能技术生成

PDF文件格式

现在，可移植文档格式(PDF)属于最经常使用的数据格式。在1990年，PDF文档的结构由Adobe定义。PDF格式的思想是，对于通讯过程当中涉及的双方(建立者，做者或发送者以及接收者)而言，传输的数据/文档看起来彻底相同。html

工具和库

适用于Python的PDF工具，模块和库的可用解决方案范围有些混乱，须要花一点时间弄清楚什么是什么，以及哪些项目须要连续维护。根据咱们的研究，如下是最新的候选人：python

PyPDF2：一个Python库，用于提取文档信息和内容，逐页拆分文档，合并文档，裁剪页面并添加水印。PyPDF2支持未加密和加密的文档。git

PDFMiner：彻底用Python编写，适用于Python 2.4。对于Python 3，请使用克隆的包PDFMiner.six。这两个软件包都容许您解析，分析和转换PDF文档。这包括对PDF 1.7以及CJK语言(中文，日文和韩文)的支持，以及各类字体类型(Type1，TrueType，Type3和CID)。github

pdflib for Python：Poppler库的扩展，为它提供了Python绑定。它使您能够解析，分析和转换PDF文档。不要将其与具备相同名称的商业吊坠相混淆。工具

PyFPDF：一个在Python下生成PDF文档的库。从FPDF PHP库移植而来，这是著名的PDFlib扩展替换，其中包含许多示例，脚本和派生类。性能

PDFTables：一项商业服务，提供从PDF文档附带的表格中提取的内容。提供一个API，以便PDFTables能够用做SAAS。字体

PyX -Python图形包：PyX是用于建立PostScript，PDF和SVG文件的Python包。它结合了PostScript绘图模型的抽象和TeX / LaTeX接口。这些基元能够构建复杂的任务，例如以可发布的质量建立2D和3D绘图。网站

ReportLab：一个雄心勃勃的，具备行业实力的图书馆，主要致力于精确建立PDF文档。免费提供开放源代码版本和名为ReportLab PLUS的商业加强版本。this

PyMuPDF(又称“ fitz”)：MuPDF的Python绑定，这是一种轻量级的PDF和XPS查看器。该库能够访问PDF，XPS，OpenXPS，epub，漫画和小说书格式的文件，而且以其最佳性能和高渲染质量而闻