【python】提取pdf文件中的所有图片

最新推荐文章于 2024-09-14 16:46:00 发布

Xavier Jiezou

最新推荐文章于 2024-09-14 16:46:00 发布

阅读量1k

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_42951560/article/details/109609662

版权

python 专栏收录该内容

158 篇文章 38 订阅

订阅专栏

写在前面

一个pdf文件中有很多页，每页有若干张图片，如何将pdf文件中的所有图片提取出来？

安装模块

pip install pymupdf

示例代码

import fitz


def func(doc):
    for i in range(len(doc)):
        imglist = doc.getPageImageList(i)
        for j, img in enumerate(imglist):
            xref = img[0]
            pix = fitz.Pixmap(doc, xref)   # make pixmap from image
            if pix.n - pix.alpha < 4:      # can be saved as PNG
                pix.writePNG("p%s-%s.png" % (i+1, j+1))
            else:                          # CMYK: must convert first
                pix0 = fitz.Pixmap(fitz.csRGB, pix)
                pix0.writePNG("p%s-%s.png" % (i+1, j+1))
                pix0 = None                # free Pixmap resources
            pix = None                     # free Pixmap resources


if __name__ == "__main__":
    func(doc=fitz.open('xxx.pdf'))         # input the path of pdf file