从多个pdf文档中截取部分区域拼接成一个pdf文档

提取合并多个pdf页面中的子区域,形成一个没有分页符的页面。
输入input:多个pdf的Rect区域 areas in pdf
输出output:一页(只是一页)完整的pdf文档 a page of pdf doc
*******************************
使用的工具及步骤tools and steps:
 1、使用fitz.open()函数打开pdf
*2、使用page.searchFor("特征字符串")函数找到特征字符串位置(两个对角定点的坐标),得到需要剪切的位置。如果知道位置这一步可以省略
 3、使用page = DOC.newPage(页面宽,页面高)创建新的页面
 4、使用page.showPDFpage()函数插入区域
 5、使用doc.save()函数保存文档

example:
#step 1  
import fitz                
DOC1 = fitz.open("c:/内容文件1.pdf") # 打开pdf文件,为提取这个文件的内容做准备
DOC2 = fitz.open("c:/内容文件2.pdf") # 打开pdf文件,为提取这个文件的内容做准备
DOC3 = fitz.open()  # empty new PDF (output)建立一个空文档,用于存放提取出来的pdf上的区域
#step 3 创建一个新的空页面
page = DOC3.newPage(width=DOC1[0].rect.width, 
                    height=y) #文档总共的高度
 4、使用page.showPDFpage()函数插入区域

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值