【精准解析】pdfplumber完全指南：从PDF中提取文本、表格与元数据的Python利器

Is code

于 2025-05-07 09:00:00 发布

阅读量1.1k

点赞数 13

分类专栏：技术技巧 # 文档处理扩展文章标签： python pdf 开发语言

本文链接：https://blog.csdn.net/maoyu_dual/article/details/147673295

版权

【精准解析】pdfplumber完全指南：从PDF中提取文本、表格与元数据的Python利器

前言：为什么PDF内容提取如此重要？

在数字化转型的浪潮中，海量信息被封存在PDF文档中 - 从金融报表到政府文件，从学术论文到商业合同。虽然PDF格式保证了文档的一致性展示，但同时也给数据提取带来了挑战。手动从PDF复制数据不仅耗时低效，还容易出错。企业和研究机构每年在PDF数据提取上花费数千小时，这一痛点催生了专业PDF解析工具的需求。pdfplumber作为Python生态中的佼佼者，提供了精确提取PDF文本、表格、图像和元数据的能力，让开发者能够将非结构化PDF内容转化为可分析的结构化数据。本文将全面介绍pdfplumber的使用技巧，帮助您掌握这一关键技能。

1. pdfplumber基础入门

1.1 安装与环境配置

使用pip快速安装pdfplumber：

# 安装基础包
pip install pdfplumber

# 如果需要可视化功能，安装额外依赖
pip install pdfplumber[visualization]

基本导入：

import pdfplumber
import pandas as pd
import matplotlib.pyplot as plt

1.2 打开PDF文档与基本操作

def basic_pdf_operations(pdf_path):
    """演示pdfplumber的基本操作"""
    # 打开PDF文件
    with pdfplumber.open(pdf_path) as pdf:
        # 获取PDF基本信息
        num_pages = len(pdf.pages)
        print(f"PDF页数: {
     num_pages}")
        
        # 获取文档元数据
        metadata = pdf.metadata
        print(f"文档标题: {
     metadata.get('Title', '无标题')}")
        print(f"文档作者: {
     metadata.get('Author', '未知作者')}")
        print(f"创建日期: {
     metadata.get('CreationDate', '未知日期')}")
        
        # 访问第一页
        first_page = pdf.pages[0]
        
        # 提取页面尺寸信息
        width, height = first_page.width, first_page.height
        print(f"页面尺寸: {
     width} x {
     height} 点")
        
        # 提取第一页文本
        text = first_page.extract_text()
        print("\n页面文本摘要:")
        print(text[:300] + "..." if len(text) > 300 else text)
        
        # 返回PDF对象供后续使用
        return pdf

# 使用示例
pdf = basic_pdf_operations("sample_report.pdf")

2. 文本提取技术

2.1 基本文本提取

def extract_text_from_pdf(pdf_path, page_numbers=None):
    """从PDF提取文本，可指定页码"""
    with pdfplumber.open(pdf_path) as pdf:
        # 如果未指定页码，则处理所有页面
        if page_numbers is None:
            page_numbers = range(len(pdf.pages))
        
        # 提取指定页面的文本
        extracted_text = {
   }
        for i in page_numbers:
            if i < len(pdf.pages):
                page = pdf.pages[i]
                extracted_text[i+1] = page.extract_text()  # 页码从1开始
            else:
                print(f"警告: 页码 {
     i+1} 超出范围")
        
        return extracted_text

# 使用示例
# 提取所有页面文本
all_text = extract_text_from_pdf("sample_report.pdf")

# 提取特定页面文本
specific_pages = extract_text_from_pdf("sample_report.pdf", [0, 2, 4])  # 提取第1,3,5页

2.2 文本过滤与清洗

def clean_and_filter_text(pdf_path, keywords=None, remove_page_numbers=True):
    """提取并清洗文本，可按关键词过滤"""
    with pdfplumber.open(pdf_path) as pdf:
        cleaned_text = []
        
        for page in pdf.pages:
            # 提取文本
            text = page.extract_text()
            
            # 简单的文本清洗
            if text:
                # 移除多余空格
                text = ' '.join(text.split())
                
                # 移除页码（简单方法，实际情况可能需要更复杂处理）
                if remove_page_numbers:
                    # 移除类似"Page X of Y"的内容
                    import re
                    text = re.sub(r'Page\s+\d+\s+of\s+\d+', '', text)
                    # 移除单独的数字（可能是页码）
                    text = re.sub(r'\n\s*\d+\s*\n', '\n', text)
                
                # 按关键词过滤
                if keywords:
                    for keyword in keywords:
                        if keyword.lower() in text.lower():
                            cleaned_text.append(text)
                            break
                else:
                    cleaned_text.append(text)
        
        return cleaned_text

# 使用示例
# 提取包含特定关键词的文本
financial_text = clean_and_filter_text("annual_report.pdf", 
                                     keywords=["revenue", "profit", "financial"])

2.3 按区域提取文本

def extract_text_by_region(pdf_path, region, page_number=0):
    """从特定页面的指定区域提取文本
    region格式: (x0, top, x1, bottom)，单位为点
    """
    with pdfplumber.open(pdf_path) as pdf:
        if page_number < len(pdf.pages):
            page = pdf.pages[page_number]
            
            # 提取指定区域的文本
            x0, top, x1, bottom = region
            cropped_page = page.crop((x0, top, x1, bottom))
            text = cropped_page.extract_text()
            
            return text
        else:
            print(f"警告: 页码 {
     page_number+1} 超出范围")
            return None

# 使用示例
# 从第一页的顶部区域提取文本（例如标题区域）
header_text = extract_text_by_region("business_report.pdf", 
                                    region=(0, 0, 595, 100))  # A4页面宽度约为595点

# 提取文档右上角区域（如日期、文档编号等）
top_right_text = extract_text_by_region("invoice.pdf", 
                                      region=(400, 0, 595, 100))

3. 表格数据提取

3.1 基本表格提取

def extract_tables_from_page(pdf_path, page_number=0):
    """从指定页面提取所有表格"""
    with pdfplumber.open(pdf_path) as pdf:
        if page_number < len(pdf.pages):
            page = pdf.pages[page_number]
            
            # 提取表格
            tables = page.extract_tables()
            
            # 将表格转换为DataFrame便于处理
            dataframes = []
            for i, table in enumerate(tables):
                # 使用第一行作为列名
                header = table[0]
                data = table[1:]
                df = pd.DataFrame(data, columns=header)
                dataframes.append(df)
            
            return dataframes
        else:
            print(f"警告: 页码 {
     page_number+1} 超出范围")
            return []

# 使用示例
tables_df = extract_tables_from_page("financial_report.pdf")
if tables_df:
    # 打印第一个表格
    print(tables_df[0])

3.2 表格提取参数优化

def extract_tables_with_custom_settings(pdf_path, page_number=0, table_settings=None):
    """使用自定义设置提取表格，提高提取准确性"""
    with pdfplumber.open(pdf_path) as pdf:
        if page_number < len(pdf.pages):
            page = pdf.pages[page_number]
            
            # 默认表格提取设置
            default_settings = {
   
                "vertical_strategy": "lines",
                "horizontal_strategy": "lines",
                "explicit_vertical_lines": [],
                "explicit_horizontal_lines": [],
                "snap_tolerance": 3,
                "join_tolerance": 3,
                "edge_min_length": 3,
                "min_words_vertical": 3,
                "min_words_horizontal": 1,
                "keep_blank_chars": False,
                "text_tolerance": 3,
                "text_x_tolerance": None,
                "text_y_tolerance": None,
                "intersection_tolerance": 3,
                "intersection_x_tolerance": None,
                "intersection_y_tolerance": None,
            }
            
            # 更新设置
            if table_settings:
                default_settings.update(table_settings)
            
            # 提取表格
            tables = page.extract_tables(table_se