python读取xps文件_Python操做PDF-文本和图片提取(使用PyPDF2和PyMuPDF)

本文介绍了Python处理PDF文件的库PyPDF2和PyMuPDF,展示了如何使用它们来提取文本和图像,以及如何使用PyPDF2将PDF拆分为单个页面。PyMuPDF在保持原始文档结构方面具有优势。
摘要由CSDN通过智能技术生成

PDF文件格式

现在,可移植文档格式(PDF)属于最经常使用的数据格式。在1990年,PDF文档的结构由Adobe定义。PDF格式的思想是,对于通讯过程当中涉及的双方(建立者,做者或发送者以及接收者)而言,传输的数据/文档看起来彻底相同。html

工具和库

适用于Python的PDF工具,模块和库的可用解决方案范围有些混乱,须要花一点时间弄清楚什么是什么,以及哪些项目须要连续维护。根据咱们的研究,如下是最新的候选人:python

PyPDF2:一个Python库,用于提取文档信息和内容,逐页拆分文档,合并文档,裁剪页面并添加水印。PyPDF2支持未加密和加密的文档。git

PDFMiner:彻底用Python编写,适用于Python 2.4。对于Python 3,请使用克隆的包PDFMiner.six。这两个软件包都容许您解析,分析和转换PDF文档。这包括对PDF 1.7以及CJK语言(中文,日文和韩文)的支持,以及各类字体类型(Type1,TrueType,Type3和CID)。github

pdflib for Python:Poppler库的扩展,为它提供了Python绑定。它使您能够解析,分析和转换PDF文档。不要将其与具备相同名称的商业吊坠相混淆。工具

PyFPDF:一个在Python下生成PDF文档的库。从FPDF PHP库移植而来,这是著名的PDFlib扩展替换,其中包含许多示例,脚本和派生类。性能

PDFTables:一项商业服务,提供从PDF文档附带的表格中提取的内容。提供一个API,以便PDFTables能够用做SAAS。字体

PyX -Python图形包:PyX是用于建立PostScript,PDF和SVG文件的Python包。它结合了PostScript绘图模型的抽象和TeX / LaTeX接口。这些基元能够构建复杂的任务,例如以可发布的质量建立2D和3D绘图。网站

ReportLab:一个雄心勃勃的,具备行业实力的图书馆,主要致力于精确建立PDF文档。免费提供开放源代码版本和名为ReportLab PLUS的商业加强版本。this

PyMuPDF(又称“ fitz”):MuPDF的Python绑定,这是一种轻量级的PDF和XPS查看器。该库能够访问PDF,XPS,OpenXPS,epub,漫画和小说书格式的文件,而且以其最佳性能和高渲染质量而闻

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值