python实现从PDF中提取图像；将单个pdf文件每一页拆分出来,得到多个pdf；在pdf中查找包含某个文本的页面；将pdf转化为一页页的pdf；5.将某一批文件由word格式转化为pdf格式

qq_42839893

于 2020-08-04 22:33:41 发布

阅读量968

点赞数 1

文章标签： python 流处理

本文链接：https://blog.csdn.net/qq_42839893/article/details/107802267

版权

本文介绍了使用Python的PyMuPDF和PyPDF2库进行PDF操作，包括从PDF中提取图像、将单个PDF拆分为多页、查找含有特定文本的页面、PDF转为单页格式，以及将Word文件批量转为PDF。在macOS上安装win32com遇到了问题，期待解决方案。

摘要由CSDN通过智能技术生成

近期有一些工作上的事情需要对pdf进行一些的操作，所以结下来稍微总结一下吧：

写在前面：
需要对PyPDF2，PyMuPDF库安装
直接pip就好：
pip install PyPDF2
pip install PyMuPDF

1.使用PyMuPDF从PDF中提取图像

import fitz
pdf_document = fitz.open("C题copy.pdf")
for current_page in range(len(pdf_document)):
    for image in pdf_document.getPageImageList(current_page):
        xref = image[0]
        pix = fitz.Pixmap(pdf_document,xref)
        if pix.n < 5:
            pix.writePNG("page%s-%s.png" % (current_page , xref)
                                           )
        else:
            pix1 = fitz.Pixmap(fitz.csRGB , pix)
            pix1.writePNG("page%s-%s.png" %(current_page , xref))
            pix1 =