task-python操作pdf

最新推荐文章于 2023-11-24 23:40:35 发布

西瓜大扛把子

最新推荐文章于 2023-11-24 23:40:35 发布

阅读量142

点赞数 1

文章标签： python

本文链接：https://blog.csdn.net/Helloguyss/article/details/118162653

版权

学习内容：

Python 操作 PDF

PDF 操作是本次自动化办公的最后一个知识点，初级的 PDF 自动化包括 PDF 文档的拆分、合并、提取等操作，更高级的还包括 WORD与PDF互转等

初级操作一般比较常用，也可以解决较多的办公内容，所以本节将会主要介绍 PDF 的初级操作，具体内容将会从以下几个小节展开：

相关介绍
批量拆分
批量合并
提取文字内容
提起表格内容
提起图片内容
转换为PDF图片
添加水印
加密与解码

下面直接开始本节内容。

1. 相关介绍

Python 操作 PDF 会用到两个库，分别是：PyPDF2 和 pdfplumber

其中 PyPDF2 可以更好的读取、写入、分割、合并PDF文件，而 pdfplumber 可以更好的读取 PDF 文件中内容和提取 PDF 中的表格

对应的官网分别是：

PyPDF2：https://pythonhosted.org/PyPDF2/

pdfplumber：https://github.com/jsvine/pdfplumber

由于这两个库都不是 Python 的标准库，所以在使用之前都需要单独安装

win+r 后输入 cmd 打开 command 窗口，依次输入如下命令进行安装：

pip install PyPDF2

pip install pdfplumber

安装完成后显示 success 则表示安装成功

2. 批量拆分

将一个完整的 PDF 拆分成几个小的 PDF，因为主要涉及到 PDF 整体的操作，所以本小节需要用到 PyPDF2 这个库

拆分的大概思路如下：

读取 PDF 的整体信息、总页数等
遍历每一页内容，以每个 step 为间隔将 PDF 存成每一个小的文件块
将小的文件块重新保存为新的 PDF 文件

需要注意的是，在拆分的过程中，可以手动设置间隔，例如：每5页保存成一个小的 PDF 文件

拆分的代码如下：

def split_pdf(filename, filepath, save_dirpath, step=5):
    """
    拆分PDF为多个小的PDF文件，
    @param filename:文件名
    @param filepath:文件路径
    @param save_dirpath:保存小的PDF的文件路径
    @param step: 每step间隔的页面生成一个文件，例如step=5，表示0-4页、5-9页...为一个文件
    @return:
    """
    if not os.path.exists(save_dirpath):
        os.mkdir(save_dirpath)
    pdf_reader = PdfFileReader(filepath)
    # 读取每一页的数据
    pages = pdf_reader.getNumPages()
    for page in range(0, pages, step):
        pdf_writer = PdfFileWriter()
        # 拆分pdf，每 step 页的拆分为一个文件
        for index in range(page, page+step):
            if index < pages:
                pdf_writer.addPage(pdf_reader.getPage(index))
        # 保存拆分后的小文件
        save_path = os.path.join(save_dirpath, filename+str(int(page/step)+1)+'.pdf')
        print(save_path)
        with open(save_path, "wb") as out:
            pdf_writer.write(out)

    print("文件已成功拆分，保存路径为："+save_dirpath)

以“易方达中小盘混合型证券投资基金2020年中期报告”为例，整个 PDF 文件一共 46 页，每5页为间隔，最终生成了10个小的 PDF 文件

需要注意的是：

如果你是第一次运行代码，在运行过程中，会直接报如下的错误

如果是在 Pycharm 下，直接通过报错信息，点击 utils.py 文件，定位到第 238 行原文

原文中是这样的：

 r = s.encode('latin-1')
 if len(s) < 2:
   		bc[s] = r
 return r

修改为：

try:
    r = s.encode(

最低0.47元/天解锁文章

西瓜大扛把子

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
task-python操作pdf

学习内容：Python 操作 PDFPDF 操作是本次自动化办公的最后一个知识点，初级的 PDF 自动化包括 PDF 文档的拆分、合并、提取等操作，更高级的还包括 WORD与PDF互转等初级操作一般比较常用，也可以解决较多的办公内容，所以本节将会主要介绍 PDF 的初级操作，具体内容将会从以下几个小节展开：相关介绍批量拆分批量合并提取文字内容提起表格内容提起图片内容转换为PDF图片添加水印加密与解码下面直接开始本节内容。1. 相关介绍Python 操作 PDF 会用到两个
复制链接

扫一扫