python实现从PDF中提取图像;将单个pdf文件每一页拆分出来,得到多个pdf;在pdf中查找包含某个文本的页面;将pdf转化为一页页的pdf;5.将某一批文件由word格式转化为pdf格式

本文介绍了使用Python的PyMuPDF和PyPDF2库进行PDF操作,包括从PDF中提取图像、将单个PDF拆分为多页、查找含有特定文本的页面、PDF转为单页格式,以及将Word文件批量转为PDF。在macOS上安装win32com遇到了问题,期待解决方案。
摘要由CSDN通过智能技术生成

近期有一些工作上的事情需要对pdf进行一些的操作,所以结下来稍微总结一下吧:

写在前面:
需要对PyPDF2,PyMuPDF库安装
直接pip就好:
pip install PyPDF2
pip install PyMuPDF

1.使用PyMuPDF从PDF中提取图像

import fitz
pdf_document = fitz.open("C题copy.pdf")
for current_page in range(len(pdf_document)):
    for image in pdf_document.getPageImageList(current_page):
        xref = image[0]
        pix = fitz.Pixmap(pdf_document,xref)
        if pix.n < 5:
            pix.writePNG("page%s-%s.png" % (current_page , xref)
                                           )
        else:
            pix1 = fitz.Pixmap(fitz.csRGB , pix)
            pix1.writePNG("page%s-%s.png" %(current_page , xref))
            pix1 = 
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值