pdf表格读取和筛选

最新推荐文章于 2025-09-18 15:26:28 发布

原创

最新推荐文章于 2025-09-18 15:26:28 发布 · 897 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#pdf

为了从 PDF 文件中读取表格，并筛选出“注册单位”中包含“建工”的数据，可以使用 PyPDF2、pdfplumber、tabula-py 等库来解析 PDF 文件，然后再进行筛选。由于表格处理更复杂，由于表格在 PDF 文件中通常会以一种表格的形式存在，这些库可以直接读取表格并提取内容。

import pdfplumber
import pandas as pd

def extract_sxjg_from_pdf(file_path):
    # 用于存储所有筛选出的数据
    selected_rows = []
    header =['序号', '人员姓\n名', '身份证号码', '注册类别', '注册单位']    
    # 打开 PDF 文件
    with pdfplumber.open(f