PDF文件拆分为单独页面且通过每页的相关内容重名命

本文介绍了一个使用Python实现的PDF处理方法,包括PDF拆分、图片转换、内容识别和重命名。通过Tesseract-OCR进行图片文字读取,根据内容重命名PDF页面,适用于大量PDF文件的处理。
摘要由CSDN通过智能技术生成

1. 前言

本文主要是将一个pdf文档通过文档拆分,图片识别,文档重命名三步完成了通过pdf页面内容某字符串对pdf进行重名名的目的。主要包括文件夹自动创建,字符串正则匹配,pdf拆分,pdf转图片,图片内容识别,内容提取等

2. 作用

适用大量PDF文件进行内容比对,同时取出其中部分内容重命名的场景。

2.1 引申

可通过pdf文档识别提取公有信息的PDF页。

3. 安装包

1.Tesseract-OCR

4. 代码实现

4.1文件夹创建

from PyPDF2 import PdfFileReader, PdfFileWriter
import os
import pytesseract
from PIL import Image
import fitz
import re
#图片目录创建
def png_MK_dir(pdf_path):
    pdf_dir = os.path.dirname(pdf_path)
    png_dir= os.path.join(pdf_dir,'png')
    if os.path.exists(png_dir):
        print("图片目录存在")
    else:
        print("图片目录不存在")
        print("正在为您创建目录")
        os.mkdir(png_dir)          #如果不存在则创建目标目录
        print("图片目录创建完成")
    return png_dir
#pdf分页后的单页目录创建
def PDF_MK_dir(pdf_path):
    pdf_dir = os.path.dirname(pdf_path)
    pdf_page_dir= os.path.join(pdf_dir,'pdf_page')
    if os.path.exists(pdf_page_dir):
        print("PDF目录存在")
    else:
        print("PDF目录不存在")
        print("正在为您创建目录")
        os.mkdir(pdf_page_dir)          #如果不存在则创建目标目录
        print("PDF目录创建完成")
    return pdf_page_dir
#pdf分页后的单页目录创建
def RENAME_PDF_MK_dir(pdf_path):
    pdf_dir = os.path.dirname(pdf_path)
    rename_pdf_dir= os.path.join(pdf_dir,'rename_pdf')
    if os.path.exists(rename_pdf_dir):
        print</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值