pdf常用字体包 -baijiahao_PDF 的各种操作,我用 Python 来实现(附网站和操作指导)

本文介绍了如何使用Python的PyMuPDF库进行PDF文件的常见操作,如合并、删除、提取页面,转换成图像,以及提取字体和图像。提供了详细的命令行示例,帮助读者快速上手。此外,还提到了一个神奇的PDF处理网站,供进一步使用。
摘要由CSDN通过智能技术生成

导言

PDF 处理是日常工作中的常见需求,包括 PDF 合并、删除、提取等。更复杂的任务如:将 PDF 转换成 图像。

下面通过几个简单的例子和一份代码,帮助大家解决上面的需求,操作非常简单。

在文末我会提供一份源码和一个神奇的 PDF 处理网站帮你解决 PDF 处理的烦恼。

PyMuPDF 介绍

为什么使用 Python,那还不是 Python 有着强大的第三方工具包,我们想要的功能兴许就有。

PyMuPDF 就是我们需要的工具,官方文档对他的简介是

PyMuPDF 是针对 MuPDF 的 Python 绑定,它是一个轻量级 PDF 和 XPS 查看器。MuPDF 可以访问 PDF,XPS,OpenXPS,CBZ(漫画书档案),FB2 和 EPUB(电子书)格式的文件。这些是扩展名为.pdf,.xps,.oxps,.cbz,.fb2 或.epub 的文件(因此您可以使用 Python 开发电子书查看器)。

官方文档:https://pymupdf.readthedocs.io/en/latest/intro.html

这里有个细节需要说明的是,Python 的第三方包一般是安装的名称和导入的名称是一样的,比如 numpy 的安装和使用是

pip install numpy # numpy 包的安装import numpy  # numpy 包的导入

但是对于 PyMuPDF 这个包就不一样了,安装和使用的包名是不一样的,这个是历史遗留下来的原因,知道有这回事就行。

PyMuPDF 的安装是这样子的

pip install PyMuPDF
da2a0de8b5e47700947038daf616a7e8.png

PyPI 源:https://pypi.org/project/PyMuPDF/

PyMuPDF 的导入是这样子的

import fitz
54a9d765cd779c5bb3b71e8e0747c5d3.png

PDF 各种处理

拆分与提取

拆分与提取 PDF 文件的,使用的是 clean 命令,同时该命令也可以用于文档加密,压缩、删除页面等操作,基本说明如下:

python -m fitz clean -husage: fitz clean [-h] [-password PASSWORD]                [-encryption {keep,none,rc4-40,rc4-128,aes-128,aes-256}]                [-owner OWNER] [-user USER] [-garbage {0,1,2,3,4}]                [-compress] [-ascii] [-linear] [-permission PERMISSION]                [-sanitize] [-pretty] [-pages PAGES]                input output-------------- optimize PDF or create sub-PDF if pages given --------------positional arguments:input                 PDF filenameoutput                output PDF filenameoptional arguments:-h, --help            show this help message and exit-password PASSWORD    password-encryption {keep,none,rc4-40,rc4-128,aes-128,aes-256}                      encryption method-owner OWNER          owner password-user USER            user password-garbage {0,1,2,3,4}  garbage collection level-compress             compress (deflate) output-ascii                ASCII encode binary data-linear               format for fast web display-permission PERMISSION                      integer with permission levels-sanitize             sanitize / clean contents-pretty               prettify PDF structure-pages PAGES          output selected pages, format: 1,5-7,50-N

以下命令只需在终端运行即可:

参数:2-N 代表去除第一页

python -m fitz clean -sanitize -pages 2-N F:视觉工程师必须知道的工业相机50问.pdf F:去除第一页.pdf

其他功能请自行尝试

提取字体和图像(非 PDF 页面)

将字体或图像从选定的 PDF 页面提取到所需目录,基本说明如下:

python -m fitz extract -husage: fitz extract [-h] [-images] [-fonts] [-output OUTPUT] [-password PASSWORD]                    [-pages PAGES]                    input--------------------- extract images and fonts to disk --------------------positional arguments:input                 PDF filenameoptional arguments:-h, --help            show this help message and exit-images               extract images-fonts                extract fonts-output OUTPUT        output directory, defaults to current-password PASSWORD    password-pages PAGES          only consider these pages, format: 1,5-7,50-N

将 视觉工程师必须知道的工业相机50问.pdf 文件中的图片和字体提取到 提取结果 文件夹中

python -m fitz extract -images -fonts -output F:提取结果 F:视觉工程师必须知道的工业相机50问.pdfsaved 9 fonts to 'F:提取结果'saved 6 images to 'F:提取结果'
1123cb415583d91dd19d5f7b95e77f18.png
合并多份文档

合并多份 PDF 文档,使用的是 join 命令,可以指定页面进行合并,同时需要关注 PDF 是否需要密码才能打开,基本说明如下:

python -m fitz join -husage: fitz join [-h] -output OUTPUT [input [input ...]]---------------------------- join PDF documents ---------------------------positional arguments:input           input filenamesoptional arguments:-h, --help      show this help message and exit-output OUTPUT  output filenamespecify each input as 'filename[,password[,pages]]'

以下命令只需在终端运行即可:合并两份文档的全部

python -m fitz join -output "F:合并两份文档.pdf" "F:视觉工程师必须知道的工业相机50问.pdf" "F:Modern CMake文档.pdf"

合并两份文档的部分,选择 视觉工程师必须知道的工业相机50问 文件的第一页和 Modern CMake文档.pdf 的 5 到最后一页进行合并,下面语句中有两个 ,, 是因为要合并的文档不需要密码,如果需要密码,就把两个逗号替换成 密码即可。

  • 5-N 代表第五页开始到文档的末尾
python -m fitz join -output F:合并两份文档.pdf F:视觉工程师必须知道的工业相机50问.pdf,,1 "F:Modern CMake文档.pdf",,5-N
PDF 转换成图片

这个功能没办法像上面那样一个命令就能解决,不过通过查看文档,我们也不难写出代码

import sys, fitz, os, datetimedef pyMuPDF_fitz(pdfPath, imagePath):    startTime_pdf2img = datetime.datetime.now()#开始时间    print("imagePath="+imagePath)    pdfDoc = fitz.open(pdfPath) # 打开文件    for pg in range(pdfDoc.pageCount): # 遍历所有页面        page = pdfDoc[pg]        rotate = int(0) # 页面旋转角度        # 每个尺寸的缩放系数为1.3,这将为我们生成分辨率提高2.6的图像。        # 此处若是不做设置,默认图片大小为:792X612, dpi=96        zoom_x = 1.33333333 #(1.33333333-->1056x816)   (2-->1584x1224)        zoom_y = 1.33333333        mat = fitz.Matrix(zoom_x, zoom_y).preRotate(rotate)        pix = page.getPixmap(matrix=mat, alpha=False)        if not os.path.exists(imagePath):#判断存放图片的文件夹是否存在            os.makedirs(imagePath) # 若图片文件夹不存在就创建        pix.writePNG(imagePath+'/'+'images_%s.png' % pg)#将图片写入指定的文件夹内    endTime_pdf2img = datetime.datetime.now()#结束时间    print('pdf2img时间=',(endTime_pdf2img - startTime_pdf2img).seconds)if __name__ == "__main__":    pdfPath = './视觉工程师必须知道的工业相机50问.pdf'    imagePath = './提取结果'    pyMuPDF_fitz(pdfPath, imagePath)

旋转 10 度的结果

5e85877510d265245a406adcd61fcd9f.png

神奇的网站明天再放出,哈哈哈~~~

以上就是 PDF 处理的几个常用功能,希望能够帮到你,喜欢的朋友感谢三连~~~

参考:

  • https://pymupdf.readthedocs.io/en/latest/index.html
  • https://www.jianshu.com/p/f57cc64b9f5e
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值