批量提取PDF文档中的图表内容并以图片形式保存
一、案例
PDF文档中有很多有图,又有统计表的情况,单独又批量一次性提取pdf中有图片展示图表信息的内容,并将图表内容以图片格式保存。
二、代码:
import fitz # PyMuPDF
from PIL import Image
import re
import os
import io
def extract_and_save_charts(input_folder, output_folder):
for filename in os.listdir(input_folder):
if filename.endswith('.pdf'):
input_path = os.path.join(input_folder, filename)
pdf_document = fitz.open(input_path)
for page_num in range(pdf_document.page_count):
page = pdf_document[page_num]
# Extract text from the page
page_text = page.get_text("text")
# Check if the page contains the exact string "