批量提取pdf内的特定数据-CSDN博客

本文链接：https://blog.csdn.net/qq_56588647/article/details/132974382

批量提取pdf内的特定数据

需求介绍

实习的时候需要提取大量pdf内的日期，本身只是一个劳动力较大的工作，但是不想浪费太多时间，所以写了个程序直接呈现出来，节约时间。

需要注意的是，pdf文件需要是由word转过来的，或者至少是可以复制黏贴的，不是图片，如果是图片的话会比较麻烦，但是暂时不需要。

pdf内容提取

代码

from io import StringIO		# 用于像文件一样对字符串缓冲区或者叫做内存文件进行读写
import  os		# 各种 Python 程序与操作系统进行交互的接口
import re		# 正则表达式(挨千刀的正则表达式)
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage


def convert_pdf_2_text(path):	# pdf内容提取并返回全部文本
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()

    device = TextConverter(rsrcmgr, retstr,  laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)

    with open(path, 'rb') as fp:
        for page in PDFPage.get_pages(fp, set()):
            interpreter.process_page(page)
        text = retstr.getvalue()

    device.close()
    retstr.close()

    return text

filepath1 = "******" 	# 文件路径，此处是文件夹路径
list = []			# 用于存储文件夹内所有文件名的列表
for i,j,a in os.walk(filepath1):
    list.append(a)
num = len(a) - 1

for i in range(num) :
    result = ""
    path = filepath1 + a[i]
    lp = convert_pdf_2_text(path)
    test_text = re.findall(".....+/2021",lp)		# 正则表达式编写
    result = a[i] +" "+ result + "\n".join(test_text)
    print(result)