PDF文件拆分为单独页面且通过每页的相关内容重名命

小念念不唠叨

已于 2022-09-29 09:39:20 修改

阅读量2.6k

点赞数 1

分类专栏： python的实际运用文章标签： python 开发语言

于 2022-09-28 16:16:49 首次发布

本文链接：https://blog.csdn.net/weixin_42968761/article/details/127089270

版权

本文介绍了一个使用Python实现的PDF处理方法，包括PDF拆分、图片转换、内容识别和重命名。通过Tesseract-OCR进行图片文字读取，根据内容重命名PDF页面，适用于大量PDF文件的处理。

摘要由CSDN通过智能技术生成

1. 前言

本文主要是将一个pdf文档通过文档拆分，图片识别，文档重命名三步完成了通过pdf页面内容某字符串对pdf进行重名名的目的。主要包括文件夹自动创建，字符串正则匹配，pdf拆分，pdf转图片，图片内容识别，内容提取等

2. 作用

适用大量PDF文件进行内容比对，同时取出其中部分内容重命名的场景。

2.1 引申

可通过pdf文档识别提取公有信息的PDF页。

3. 安装包

1.Tesseract-OCR

GitHub 地址
安装包官方下载地址
Tesseract-OCR环境变量配置自行百度。
其他包使用 pip instal 包名 安装

4. 代码实现

4.1文件夹创建

from PyPDF2 import PdfFileReader, PdfFileWriter
import os
import pytesseract
from PIL import Image
import fitz
import re

#图片目录创建
def png_MK_dir(pdf_path):
    pdf_dir = os.path.dirname(pdf_path)
    png_dir= os.path.join(pdf_dir,'png')
    if os.path.exists(png_dir):
        print("图片目录存在")
    else:
        print("图片目录不存在")
        print("正在为您创建目录")
        os.mkdir(png_dir)          #如果不存在则创建目标目录
        print("图片目录创建完成")
    return png_dir

#pdf分页后的单页目录创建
def PDF_MK_dir(pdf_path):
    pdf_dir = os.path.dirname(pdf_path)
    pdf_page_dir= os.path.join(pdf_dir,'pdf_page')
    if os.path.exists(pdf_page_dir):
        print("PDF目录存在")
    else:
        print("PDF目录不存在")
        print("正在为您创建目录")
        os.mkdir(pdf_page_dir)          #如果不存在则创建目标目录
        print("PDF目录创建完成")
    return pdf_page_dir

#pdf分页后的单页目录创建
def RENAME_PDF_MK_dir(pdf_path):
    pdf_dir = os.path.dirname(pdf_path)
    rename_pdf_dir= os.path.join(pdf_dir,'rename_pdf')
    if os.path.exists(rename_pdf_dir):
        print</