PDFTables:一种商业服务,提供从PDF文档中提取的表格。提供API以便PDFTable可以用作SAAS。
PyX - Python图形包:PyX是一个用于创建PostScript,PDF和SVG文件的Python包。它结合了PostScript绘图模型的抽象和TeX / LaTeX接口。这些基元构建了复杂的任务,例如以发布就绪质量创建2D和3D图。
ReportLab:一个雄心勃勃的工业级图书馆,主要致力于精确创建PDF文档。可作为开源版本以及名为ReportLab PLUS的商业增强版本免费提供。
PyMuPDF(又名“fitz”):MuPDF的Python绑定,它是一个轻量级的PDF和XPS查看器。该库可以访问PDF,XPS,OpenXPS,epub,漫画和小说书籍格式的文件,并以其顶级性能和高渲染质量而闻名。
pdfrw:一种基于Python的纯PDF解析器,用于读写PDF。它忠实地再现了矢量格式而没有光栅化。与ReportLab结合使用,有助于在使用ReportLab创建的新PDF中重复使用现有PDF的部分内容。
下面我们将重点介绍PyPDF2和PyMuPDF,并解释如何以最简单的方式提取文本和图像。 为了理解PyPDF2的用法,官方文档和其他资源提供的大量示例的组合。 相比之下,官方的PyMuPDF文档更清晰,使用库的速度要快得多。
用PyPDF2提取文档
PyPDF2可以作为常规软件包安装,也可以使用pip3(适用于Python3)安装。 这里的测试基于即将推出的D