PDF文件拆分为单独页面且通过每页的相关内容重名命
1. 前言
本文主要是将一个pdf文档通过文档拆分,图片识别,文档重命名三步完成了通过pdf页面内容某字符串对pdf进行重名名的目的。主要包括文件夹自动创建,字符串正则匹配,pdf拆分,pdf转图片,图片内容识别,内容提取等
2. 作用
适用大量PDF文件进行内容比对,同时取出其中部分内容重命名的场景。
2.1 引申
可通过pdf文档识别提取公有信息的PDF页。
3. 安装包
1.Tesseract-OCR
4. 代码实现
4.1文件夹创建
from PyPDF2 import PdfFileReader, PdfFileWriter
import os
import pytesseract
from PIL import Image
import fitz
import re
#图片目录创建
def png_MK_dir(pdf_path):
pdf_dir = os.path.dirname(pdf_path)
png_dir= os.path.join(pdf_dir,'png')
if os.path.exists(png_dir):
print("图片目录存在")
else:
print("图片目录不存在")
print("正在为您创建目录")
os.mkdir(png_dir) #如果不存在则创建目标目录
print("图片目录创建完成")
return png_dir
#pdf分页后的单页目录创建
def PDF_MK_dir(pdf_path):
pdf_dir = os.path.dirname(pdf_path)
pdf_page_dir= os.path.join(pdf_dir,'pdf_page')
if os.path.exists(pdf_page_dir):
print("PDF目录存在")
else:
print("PDF目录不存在")
print("正在为您创建目录")
os.mkdir(pdf_page_dir) #如果不存在则创建目标目录
print("PDF目录创建完成")
return pdf_page_dir
#pdf分页后的单页目录创建
def RENAME_PDF_MK_dir(pdf_path):
pdf_dir = os.path.dirname(pdf_path)
rename_pdf_dir= os.path.join(pdf_dir,'rename_pdf')
if os.path.exists(rename_pdf_dir):
print</