python处理pdf实例_python使用pdfminer解析pdf文件的方法示例

最新推荐文章于 2023-06-29 15:24:16 发布

weixin_39931146

最新推荐文章于 2023-06-29 15:24:16 发布

阅读量329

点赞数

文章标签： python处理pdf实例

最近要做个从 pdf 文件中抽取文本内容的工具，大概查了一下 python 里可以使用 pdfminer 来实现。下面就看看怎样使用吧。

PDFMiner是一个可以从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它注重的完全是获取和分析文本数据。PDFMiner允许你获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器，可以把PDF文件转换成HTML等格式。它还有一个扩展的PDF解析器，可以用于除文本分析以外的其他用途。

PDFMiner内置两个好用的工具：pdf2txt.py和dumppdf.py

pdf2txt.py从PDF文件中提取所有文本内容。但不能识别画成图片的文本，这需要特征识别。对于加密的PDF你需要提供一个密码才能解析，对于没有提取权限的PDF文档你得不到任何文本。

dumppdf.py把PDF文件内容变成pseudo-XML格式。这个程序主要用于debug，但是它也可能用于提取一些有意义的内容（比如图片）。

其特征有：1、完全使用python编写。（适用于2.4或更新版本）2、解析，分析，并转换成PDF文档。3、PDF-1.7规范的支持。（几乎）4、中日韩语言和垂直书写脚本支持。5、各种字体类型（Type1、TrueType、Type3，和CID）的支持。6、基本加密（RC4）的支持。7、PDF与HTML转换。8、纲要（TOC）的提取。9、标签内容提取。10、通过分组文本块重建原始的布局。

如果你的Python有安装pip模块，就可以通过命令“python pip install pdfminer”，自动安装pdfminer。

解析pdf文件用到的类：

PDFParser：从一个文件中获取数据

PDFDocument：保存获取的数据，和PDFParser是相互关联的

PDFPageInterpreter处理页面内容

PDFDevice将其翻译成你需要的格式

PDFResourceManager用于存储共享资源，如字体或图像。

python的工具，安装当然是使用pip安装了。

pip install pdfminer

命令行方式

为了使用方便，pdfminer 提供了一个命令行工具来直接转换pdf文件，使用方法如下：

pdf2txt.py

编程方式

除了命令行方式以外，对于复杂应用场景，pdfminer 也提供了以编程方式来转换 pdf 文件，主要使用下面几个类来实现：

PDFParser：用来解析pdf文件。

PDFDocument：用来保存 PDFParser 解析后的对象。

PDFPageInterpreter：用来处理解析后的文档页面内容。

PDFResourceManager：pdf 共享资源管理器,用于存储共享资源，如字体或图像。

下面看一个例子：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage, PDFTextExtractionNotAllowed

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LAParams

import StringIO

class PDFUtils():

def __init__(self):

pass

def pdf2txt(self, path):

output = StringIO.StringIO()

with open(path, 'rb') as f:

praser = PDFParser(f)

doc = PDFDocument(praser)

if not doc.is_extractable:

raise PDFTextExtractionNotAllowed

pdfrm = PDFResourceManager()

laparams = LAParams()

device = PDFPageAggregator(pdfrm, laparams=laparams)

interpreter = PDFPageInterpreter(pdfrm, device)

for page in PDFPage.create_pages(doc):

interpreter.process_page(page)

layout = device.get_result()

for x in layout:

if hasattr(x, "get_text"):

content = x.get_text()

output.write(content)

content = output.getvalue()

output.close()

return content

if __name__ == '__main__':

path = u'/tmp/abc.pdf'

pdf_utils = PDFUtils()

print pdf_utils.pdf2txt(path)

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

weixin_39931146

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python处理pdf实例_python使用pdfminer解析pdf文件的方法示例

最近要做个从 pdf 文件中抽取文本内容的工具，大概查了一下 python 里可以使用 pdfminer 来实现。下面就看看怎样使用吧。PDFMiner是一个可以从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它注重的完全是获取和分析文本数据。PDFMiner允许你获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器，可以把PDF文件转换成HTML等格式。它还有一...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。