为了从 PDF 文件中读取表格,并筛选出“注册单位”中包含“建工”的数据,可以使用 PyPDF2、pdfplumber、tabula-py 等库来解析 PDF 文件,然后再进行筛选。由于表格处理更复杂,由于表格在 PDF 文件中通常会以一种表格的形式存在,这些库可以直接读取表格并提取内容。
import pdfplumber
import pandas as pd
def extract_sxjg_from_pdf(file_path):
# 用于存储所有筛选出的数据
selected_rows = []
header =['序号', '人员姓\n名', '身份证号码', '注册类别', '注册单位']
# 打开 PDF 文件
with pdfplumber.open(f