Python：解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比

最新推荐文章于 2024-08-22 23:10:52 发布

weixin_33877885

最新推荐文章于 2024-08-22 23:10:52 发布

阅读量1.9k

点赞数 4

文章标签： python java 爬虫

原文链接：https://juejin.im/post/5c7c8048e51d4560a82bf6e5

版权

本文对比了Python中用于解析PDF文本和表格的三个库：pdfminer3k、tabula-py和pdfplumber。pdfminer3k适合提取文本，但处理表格能力有限；tabula-py依赖Java，虽专用于表格，但效果一般；pdfplumber在识别表格和准确性上表现更优，提供图形Debug功能，是处理PDF表格的较好选择。

摘要由CSDN通过智能技术生成

PDF 是个异常坑爹的东西，有很多处理 PDF 的库，但是没有完美的。

一、pdfminer3k

pdfminer3k 是 pdfminer 的 python3 版本，主要用于读取 PDF 中的文本。

网上有很多 pdfminer3k 的代码示例，看过以后，只想吐槽一下，太复杂了，有违 python 的简洁。

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTTextBox
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

path = "test.pdf"

# 用文件对象来创建一个pdf文档分析器
praser = PDFParser(open(path, 'rb'))
# 创建一个PDF文档
doc = PDFDocument()
# 连接分析器 与文档对象
praser.set_document(doc)
doc.set_parser(praser)

# 提供初始化密码
# 如果没有密码 就创建一个空的字符串
doc.initialize()

# 检测文档是否提供txt转换，不提供就忽略
if not doc.is_extractable:
    raise PDFTextExtractionNotAllowed
else:
    # 创建PDf 资源管理器 来管理共享资源
    rsrcmgr = PDFResourceManager()
    # 创建一个PDF设备对象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    <