PDF文件读取
1.PDF概述
PDF概述
可移植文档格式(PDF)是一种用独立于应用程序、硬件、操作系统的方式呈现文档的文件格式。每个PDF文件包含固定布局的平面文档的完整描述,包括文本、字形、图形及其他需要显示的信息。PDF文件格式在1990年代早期开发,用于分享包括文本格式和内置视频的文档,能跨平台操作,即使计算机平台完全不同,收件者亦无需适配相关或合用的应用软件接口。
解析PDF文件的python库主要有两个,PDFMiner库和pyPDF库,在这里主要讲解PDFMiner库来提取PDF文件内容。
2.环境配置
PDFMiner
PDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同,它完全专注于获取和分析文本数据。允许人们获取页面中文本的确切位置,以及字体或线条等其他信息。PDFMiner包括一个PDF转换器,可以将PDF文件转换为其他文本格式(如HTML)。它具有可扩展的PDF解析器,可用于除文本分析之外的其他目的。
适用于配合StringIO转出PDF文件中的文字类信息,对于图像的提取较弱,目前只支持JPEG图像。
pyPDF
pyPDF一样也是是一种从PDF文档中提取信息的工具。
PyPDF是一个纯python PDF库,能够分割,合并,裁剪和转换PDF文件的页面。它还可以向PDF文件添加自定义数据,查看选项和密码。它可以从PDF中检索文本和元数据,以及将整个文件合并在一起。
当前pyPDF库已经停止更新,最新的库是pyPDF2库