Python--从PDF中提取文本的方法总结

最新推荐文章于 2025-03-20 21:08:57 发布

一口神探

最新推荐文章于 2025-03-20 21:08:57 发布

阅读量1.8w

点赞数 10

分类专栏：自动化办公文章标签： python pdf 自动化

本文链接：https://blog.csdn.net/Achernar0208/article/details/129199937

版权

文章对比分析了Python中用于从PDF提取文本的三个库——pdfplumber、pdfminer和fitz/pymupdf。pdfplumber基于pdfminer.six，适合非扫描PDF；pdfminer提供布局信息和转换功能；而fitz/pymupdf在性能上表现出色，提取速度快且文本完整。然而，fitz/pymupdf在社区中的知名度相对较低。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

前言

一、pdfplumber

二、pdfminer

三、fitz / pymupdf

四、性能对比

前言

这段时间做了好几个关于年报的需求，其中无一例外需要从年报PDF中提取文本再进行下一步的操作。为了提高效率，对比分析了python中各种可以实现此功能的方法效率。

一、pdfplumber

简介：

可以为pdf文件插入文本字符、矩形和行的详细信息
对于非扫描格式pdf解析效果最佳
基于pdfminer.six构建
代码简洁，易于理解

安装：

pip install pdfplumber

示例：

import pdfplumber

def pdf2txt(pdf_path):
    txt = ''
    with pdfplumber.open(pdf_path) as pdf:
        for page in pdf.pages:
            txt = txt + page.extract_text()
    return txt