使用pymupdf提取PDF文档中的文字和其颜色

原创已于 2025-01-02 19:16:14 修改 · 1.2k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#pdf

于 2024-11-28 18:51:28 首次发布

开发工具专栏收录该内容

96 篇文章

订阅专栏

最近我在捣鼓一个PDF文件，想把它里面的文字和文字颜色给提取出来。后来发现有个叫pymupdf的库能搞定这事儿。操作起来挺简单的，pymupdf的示例文档里就有现成的代码可以参考。
how-to-extract-text-with-color
在这里插入图片描述

我本地的测试代码如下：

import pymupdf
import sys

# sys.argv[1] 为文件名！
doc = pymupdf.open(sys.argv[1])
page = doc[0]


for page in doc:
    text_blocks = page.get_text("dict", flags=pymupdf.TEXTFLAGS_TEXT)["blocks"]
    for block in text_blocks:
        for line in block["lines"]:
            for span in line["spans"]:
                text = span["text"]
                color = pymupdf.sRGB_to_rgb(span["color"])
                print(f"Text: {text}, Color: {color}")

运行效果如下：
在这里插入图片描述
我弄的那个文档里，有一块内容是这样的，项目里的文字被标成橙色，就是那种选中后的样子，所以我特别留意了它的颜色提取。

所以我需要抽取出文字的同时，还需要文字的颜色