软件测试|教你用Python处理PDF文件（三）

最新推荐文章于 2024-08-04 09:30:00 发布

软件测试大空翼

最新推荐文章于 2024-08-04 09:30:00 发布

阅读量275

点赞数 1

文章标签： python pdf 数学建模

本文链接：https://blog.csdn.net/Tester_muller/article/details/130967974

版权

在这里插入图片描述

前言

我们之前介绍了提取PDF文件中的文字内容，我们使用PyPDF2即可实现操作，但是如果PDF文件有图片的话，只提取文本的话无法把图片的内容一起提取出来，我们需要另外的脚本来实现对图片的提取。

环境准备

对于抽取PDF中的图片，我们使用的还是PyPDF2这个库，安装命令如下：

pip install PyPDF2

我们还是使用之前使用的过的，test2.pdf来用做例子。

使用实例

我们提取PDF文件中的图片的代码如下：

import PyPDF2
from PIL import Image


def extract_images_from_pdf(pdf_path, output_folder):
    pdf_file = open(pdf_path, 'rb')
    pdf_reader = PyPDF2.PdfReader(pdf_file)

    image_count = 0
    for page_number in range(len(pdf_reader.pages)):
        page = pdf_reader.pages[page_number]
        if '/XObject' in page['/Resources']:
            x_objects = page['/Resources']['/XObject'].get_object()
            for obj in x_objects:
                if x_objects[obj]['/Subtype'] == '/Image':
                    image = x_objects[obj]
                    if '/Filter' in image:
                        if image['/Filter'] == '/DCTDecode':
                            image_ext = 'jpg'
                        elif image['/Filter'] == '/JPXDecode':
                            image_ext = 'jp2'
                        else:
                            image_ext = 'png'
                    else:
                        image_ext = 'png'

                    image_data = image._data
                    image_name = f'image_{image_count}.{image_ext}'
                    image_path = f'{output_folder}/{image_name}'

                    with open(image_path, 'wb') as img_file:
                        img_file.write(image_data)

                    print(f'Saved image: {image_path}')
                    image_count += 1

    pdf_file.close()


# 使用示例
pdf_path = 'files/test2.pdf'  # PDF文件路径
output_folder = 'files'  # 图片输出的文件夹路径

extract_images_from_pdf(pdf_path, output_folder)