软件测试|教你用Python处理PDF文件(三)

在这里插入图片描述

前言

我们之前介绍了提取PDF文件中的文字内容,我们使用PyPDF2即可实现操作,但是如果PDF文件有图片的话,只提取文本的话无法把图片的内容一起提取出来,我们需要另外的脚本来实现对图片的提取。

环境准备

对于抽取PDF中的图片,我们使用的还是PyPDF2这个库,安装命令如下:

pip install PyPDF2

我们还是使用之前使用的过的,test2.pdf来用做例子。

使用实例

我们提取PDF文件中的图片的代码如下:

import PyPDF2
from PIL import Image


def extract_images_from_pdf(pdf_path, output_folder):
    pdf_file = open(pdf_path, 'rb')
    pdf_reader = PyPDF2.PdfReader(pdf_file)

    image_count = 0
    for page_number in range(len(pdf_reader.pages)):
        page = pdf_reader.pages[page_number]
        if '/XObject' in page['/Resources']:
            x_objects = page['/Resources']['/XObject'].get_object()
            for obj in x_objects:
                if x_objects[obj]['/Subtype'] == '/Image':
                    image = x_objects[obj]
                    if '/Filter' in image:
                        if image['/Filter'] == '/DCTDecode':
                            image_ext = 'jpg'
                        elif image['/Filter'] == '/JPXDecode':
                            image_ext = 'jp2'
                        else:
                            image_ext = 'png'
                    else:
                        image_ext = 'png'

                    image_data = image._data
                    image_name = f'image_{image_count}.{image_ext}'
                    image_path = f'{output_folder}/{image_name}'

                    with open(image_path, 'wb') as img_file:
                        img_file.write(image_data)

                    print(f'Saved image: {image_path}')
                    image_count += 1

    pdf_file.close()


# 使用示例
pdf_path = 'files/test2.pdf'  # PDF文件路径
output_folder = 'files'  # 图片输出的文件夹路径

extract_images_from_pdf(pdf_path, output_folder)

运行脚本,发现files文件夹新增了两个jpg文件,如下:

在这里插入图片描述

图片如下:

在这里插入图片描述

总结

本文主要介绍了使用PyPDF2库实现对PDF文件中的图片进行提取的操作,后续我们将介绍提取PDF文件中的表格内容。

更多技术文章

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值