很多时候,在处理各种数据业务时候,会受到到PDF格式的文件,需要提取并分析里面的数据。本文利用pdfplumber,pandas 提取保存表格。同时学习利用yield语法,形成迭代器,输出每页数据。避免使用列表的办法输出,提升性能,简化代码。
代码如下
import gc
import pdfplumber
import pandas as pd
import time
from time import ctime
import openpyxl
pdf = pdfplumber.open(r"E:\python项目\python\小阳工程\提取pdf表格,筛选表格数据\条件筛选表格输出\1032+第三册+第二分册+路基路面.pdf")
N=len(pdf.pages)
print('总共有',N,'页')
def yieldlist( ):
for i in range(249,N):
print('********************************************************************************************************************************************************')
print('正在搜寻第',str(i+1),'页表格')
print('***************************************************************