python 批量从PDF中提取表格（使用yield语法迭代数据）

搬码工琪老师

已于 2023-03-04 21:25:40 修改

阅读量402

点赞数

分类专栏：表格处理 python制作生活小工具文章标签： python pdf pandas

于 2023-03-04 16:37:56 首次发布

本文链接：https://blog.csdn.net/hq606/article/details/129335344

版权

【代码】python 批量从PDF中提取表格（使用yield语法迭代数据）

摘要由CSDN通过智能技术生成

很多时候，在处理各种数据业务时候，会受到到PDF格式的文件，需要提取并分析里面的数据。本文利用pdfplumber，pandas 提取保存表格。同时学习利用yield语法，形成迭代器，输出每页数据。避免使用列表的办法输出，提升性能，简化代码。
代码如下

import gc
import pdfplumber
import pandas as pd
import time
from time import  ctime
import openpyxl
pdf = pdfplumber.open(r"E:\python项目\python\小阳工程\提取pdf表格，筛选表格数据\条件筛选表格输出\1032+第三册+第二分册+路基路面.pdf")
N=len(pdf.pages)
print('总共有',N,'页')

def yieldlist( ):
    for i in range(249,N):
        
        print('********************************************************************************************************************************************************')
        print('正在搜寻第',str(i+1),'页表格')
        print('***************************************************************