Python:PDF转长图像和分页图像

简介:随着电子化文档的普及,PDF文件的使用频率越来越高。有时我们需要将PDF中的内容转化为图片格式进行分享或编辑,那么如何才能轻松地完成此任务呢?本文将为你展示一个Python工具:如何将PDF文件转化为图片,包括将PDF转化为长图像和每页分别转为单独的图像。

历史攻略:

python:pdf 转 word

安装步骤:

# Ubuntu:
sudo apt-get update
sudo apt-get install python3-pip
sudo apt-get install poppler-utils
pip3 install pdf2image
pip3 install Pillow

# CentOS:
yum update
yum install python3-pip
yum install poppler-utils
pip3 install pdf2image
pip3 install Pillow

# Windows 10:
安装Python:访问Python官网下载并安装Python。
安装poppler:下载poppler for Windows并解压。
设置poppler环境变量:将poppler的bin目录路径添加到系统PATH环境变量中。

# 安装库
pip install pdf2image
pip install Pillow

参数说明:

pdf_path: 输入的PDF文件的路径。
output_image_path: 输出的长图像的路径。
output_folder: 输出的单页图像的文件夹路径。
poppler_path: poppler工具的bin目录路径,此路径是在Windows下必要的,因为pdf2image库需要它来进行PDF到图像的转换。

案例源码:

# -*- coding: utf-8 -*-
# time: 2023/10/23 15:53
# file: pdf2picture.py
# 公众号: 玩转测试开发

import os
from pdf2image import convert_from_path
from PIL import Image


def pdf_to_long_image(pdf_path, output_image_path):
    # 从PDF提取每一页为图像
    pages = convert_from_path(pdf_path, poppler_path='C:\\Users\\poppler-23.08.0\\Library\\bin')

    # 获取总的高度
    total_height = sum(page.height for page in pages)

    # 创建一个空白的长图像
    long_image = Image.new('RGB', (pages[0].width, total_height))

    # 将每一页的图像粘贴到长图像上
    y_offset = 0
    for page in pages:
        long_image.paste(page, (0, y_offset))
        y_offset += page.height

    # 保存长图像
    long_image.save(output_image_path)


def pdf_to_images(pdf_path, output_folder):
    # 将PDF转换为PIL图像列表
    pages = convert_from_path(pdf_path, poppler_path='C:\\Users\\poppler-23.08.0\\Library\\bin')

    # 确保输出文件夹存在
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # 将每页保存为单独的图像
    for i, page in enumerate(pages):
        image_filename = os.path.join(output_folder, f"output_image_page_{i + 1}.png")
        page.save(image_filename, "PNG")


if __name__ == '__main__':
    pdf_path = 'qp_01.pdf'
    output_folder = 'output_images'

    # 使用示例
    pdf_to_long_image('qp_01.pdf', 'output_image.png')
    pdf_to_images(pdf_path, output_folder)

运行结果:

图片

1、使用pdf_to_long_image函数,将得到合并了PDF所有页面长图像。

2、使用pdf_to_images函数,会在指定的输出文件夹中得到每一页PDF的单独图像文件,文件名格式为output_image_page_页码.png。

注意事项:

1、确保已经安装了所有必要的库和工具。

2、输入的PDF文件路径应该是有效的,否则程序会报错。

3、在Windows系统下,确保已经设置了poppler的环境变量或在代码中提供了正确的poppler路径。

4、生成的图像可能会占用较大存储空间,特别是当PDF文件页数较多时。

总结:通过Python可以轻松地实现PDF到图像的转换,不仅可以将整个PDF转为一个长图像,还可以将每一页分别转为单独的图像。这个小工具对于那些经常需要处理PDF的人来说非常有用。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python中,我们可以使用Pillow库来处理图像,PyPDF2库来处理PDF文件。首先,需要使用Pillow库将骑缝章图像加载进来,然后计算放置图像的位置。接着,使用PyPDF2库打开PDF文件,添加图像,并保存新的PDF文件。 具体步骤如下: 1. 安装需要的库 在命令行中输入以下命令来安装Pillow和PyPDF2库。 ``` pip install Pillow pip install PyPDF2 ``` 2. 加载图像 使用Pillow库的`Image.open()`函数加载骑缝章图像。 ```python from PIL import Image image_path = 'path/to/image.jpg' image = Image.open(image_path) ``` 3. 计算放置位置 首先需要获取PDF页面的大小,可以通过PyPDF2库的`PdfFileReader()`和`getPage()`函数来获取。 ```python from PyPDF2 import PdfFileReader pdf_path = 'path/to/file.pdf' pdf_reader = PdfFileReader(open(pdf_path, 'rb')) page = pdf_reader.getPage(0) page_width = page.mediaBox.getWidth() page_height = page.mediaBox.getHeight() ``` 计算骑缝章图像的放置位置。这里假设骑缝章图像的大小是100x100像素,距离页面左边缘10像素,距离页面底边缘10像素。 ```python image_width = 100 image_height = 100 x = 10 y = 10 ``` 4. 添加图像 使用PyPDF2库的`PdfFileWriter()`和`addPage()`函数创建一个新的PDF文件,将原始PDF文件中的页面复制到新文件中,并在页面上添加骑缝章图像。 ```python from PyPDF2 import PdfFileReader, PdfFileWriter from io import BytesIO pdf_path = 'path/to/file.pdf' pdf_reader = PdfFileReader(open(pdf_path, 'rb')) pdf_writer = PdfFileWriter() for page_num in range(pdf_reader.getNumPages()): page = pdf_reader.getPage(page_num) page_width = page.mediaBox.getWidth() page_height = page.mediaBox.getHeight() overlay = Image.new('RGB', (page_width, page_height), (255, 255, 255, 0)) overlay.paste(image, (x, page_height - y - image_height)) overlay_pdf = BytesIO() overlay.save(overlay_pdf, format='png') overlay_pdf.seek(0) overlay_reader = PdfFileReader(overlay_pdf) page.mergePage(overlay_reader.getPage(0)) pdf_writer.addPage(page) with open('output.pdf', 'wb') as output_file: pdf_writer.write(output_file) ``` 最后,运行以上代码后,就会在`output.pdf`文件中看到添加了骑缝章图像PDF文件了。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值