用python处理PDF

PDF的页操作

这里主要用的是pypdf4。虽然pypdf2更加热门,但是它已经停止了维护。目前最新的版本是pypdf4,希望作者可以一直维护下去。
安装:pip install PyPDF4
github:https://github.com/claird/PyPDF4
pypi:https://www.cnpython.com/pypi/pypdf4
目前的版本是1.27.0,与pypdf2基本一致。
pypdf2文档:https://pythonhosted.org/PyPDF2/

pypdf4有两大类,分别是PdfFileReaderPdfFileWriter。顾名思义,前者用来读取PDF,后者用来写入PDF

PdfFileReader

读取PDF

import os
from PyPDF4 import PdfFileReader

pdf_path = os.path(r"F:\test.pdf")
pdf = PdfFileReader(pdf_path, 'rb')

一些方法

pdf.getDocumentInfo()  # 获取文件信息
pdf.getIsEncrypted()   # 是否加密
pdf.getNumPages()      # 获取页数
pdf.getPage(index)     # 获取该页
pdf.getOutlines()      # 获取大纲

PdfFileWriter

写入PDF

from PyPDF4 import PdfFileWriter
output = PdfFileWriter()
with open(r'F:\output.pdf','wb') as f:
	output.write(f)

一些方法

output.addpage(Page)                 # 追加Page页
output.addBlankPage()                # 追加一张空白页
output.addBookmark(title, pagenum)   # 添加书签,pagenum从0开始计数
output.cloneDocumentFromReader(PdfFileReader)   # 深拷贝
output.insertBlankPage(index=pos)    # 在pos处插入空白页
output.insertPage(page, pos)         # 在pos处插入page页

output.getNumPages()                 # 获取页数
output.getPage(index)                # 获取该页
output.getOutlines()                 # 获取大纲
output.encrypt(user_pwd)             # 加密

PdfFileMerger

可以用来合并多个PDF文件的类,主要方法是mergeappend。目前还没看明白。

样例

删除指定页

import os
from PyPDF4 import PdfFileWriter, PdfFileReader

path = r"F:"
index = 1
infile = PdfFileReader(os.path.join(path,'test.pdf'),'rb')
output = PdfFileWriter()

for i in range(infile.getNumPages()):
    if i != index:
        p = infile.getPage(i)
        output.addPage(p)

with open(os.path.join(path,'new_test.pdf'),'wb') as f:
    output.write(f)

合并多个PDF

import os
from PyPDF4 import PdfFileWriter, PdfFileReader

path = r"F:"
pdf_list = os.listdir(path)

output = PdfFileWriter()

for pdf in pdf_list:
    infile = PdfFileReader(os.path.join(path,pdf),'rb')
    # output.cloneDocumentFromReader(infile)  # 没有测试合并顺序
    for i in range(infile.getNumPages()):
        p = infile.getPage(i)
        output.addPage(p)

with open(os.path.join(path,'new.pdf'),'wb') as f:
    output.write(f)

PDF内容的提取

这里主要用的是pdfplumber。其他包虽然也有提取的功能,但大多都不尽人意。这个效果稍好一点,而且还在维护中。
安装pip install pdfplumber

读取PDF

import pdfplumber
pdf = pdfplumber.open(r"F:\test.pdf")
pdf.metadata    # 返回基础信息
pdf.pages       # list, pdf各页

查看page信息

page = pdf.pages[0]
page.page_number # 页码:1
page.width       # 页宽
page.height      # 页高

内容的提取

page.extract_text()   # 提取文字,返回str
page.extract_words()  # 提取文字,返回list,元素为dict包含x0,x1,top,bottom,text字段
page.extract_table()  # 提取表格,返回迭代器,可逐行读取
page.extract_tables() # 提取表格,返回list->row->cel
  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

73826669

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值