前言
我们之前介绍了提取PDF文件中的文字内容,我们使用PyPDF2即可实现操作,但是如果PDF文件有图片的话,只提取文本的话无法把图片的内容一起提取出来,我们需要另外的脚本来实现对图片的提取。
环境准备
对于抽取PDF中的图片,我们使用的还是PyPDF2这个库,安装命令如下:
pip install PyPDF2
我们还是使用之前使用的过的,test2.pdf来用做例子。
使用实例
我们提取PDF文件中的图片的代码如下:
import PyPDF2
from PIL import Image
def extract_images_from_pdf(pdf_path, output_folder):
pdf_file = open(pdf_path, 'rb')
pdf_reader = PyPDF2.PdfReader(pdf_file)
image_count = 0
for page_number in range(len(pdf_reader.pages)):
page = pdf_reader.pages[page_number]
if '/XObject' in page['/Resources']:
x_objects = page['/Resources']['/XObject'].get_object()
for obj in x_objects:
if x_objects[obj]['/Subtype'] == '/Image':
image = x_objects[obj]
if '/Filter' in image:
if image['/Filter'] == '/DCTDecode':
image_ext = 'jpg'
elif image['/Filter'] == '/JPXDecode':
image_ext = 'jp2'
else:
image_ext = 'png'
else:
image_ext = 'png'
image_data = image._data
image_name = f'image_{image_count}.{image_ext}'
image_path = f'{output_folder}/{image_name}'
with open(image_path, 'wb') as img_file:
img_file.write(image_data)
print(f'Saved image: {image_path}')
image_count += 1
pdf_file.close()
# 使用示例
pdf_path = 'files/test2.pdf' # PDF文件路径
output_folder = 'files' # 图片输出的文件夹路径
extract_images_from_pdf(pdf_path, output_folder)
运行脚本,发现files文件夹新增了两个jpg文件,如下:
图片如下:
总结
本文主要介绍了使用PyPDF2库实现对PDF文件中的图片进行提取的操作,后续我们将介绍提取PDF文件中的表格内容。