如何用python批量提取pdf文档中的图表内容并以图片形式保存

helloshili2011

于 2024-03-17 19:16:36 发布

阅读量886

点赞数 27

文章标签： pdf python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/helloshili2011/article/details/136787555

版权

批量提取PDF文档中的图表内容并以图片形式保存

一、案例

PDF文档中有很多有图，又有统计表的情况，单独又批量一次性提取pdf中有图片展示图表信息的内容，并将图表内容以图片格式保存。

二、代码：

import fitz # PyMuPDF
from PIL import Image
import re
import os
import io

def extract_and_save_charts(input_folder, output_folder):
for filename in os.listdir(input_folder):
if filename.endswith('.pdf'):
input_path = os.path.join(input_folder, filename)
pdf_document = fitz.open(input_path)

for page_num in range(pdf_document.page_count):
page = pdf_document[page_num]

# Extract text from the page
page_text = page.get_text("text")

# Check if the page contains the exact string &

最低0.47元/天解锁文章

关注

27
点赞
踩
18

收藏

觉得还不错? 一键收藏
打赏
0
评论
如何用python批量提取pdf文档中的图表内容并以图片形式保存

Check if the page contains the exact string "图表"PDF文档中有很多有图，又有统计表的情况，单独又批量一次性提取pdf中有图片展示图表信息的内容，并将图表内容以图片格式保存。output_folder = r"C:\" #输入提取后图表存放的地址。input_folder = r"C:\" #输入PDF存放的地址。2、务必输入提取后图表存放的地址。1、务必输入PDF存放的地址。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

helloshili2011 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。