Py之pymupdf4llm：pymupdf4llm的简介、安装和使用方法、案例应用之详细攻略

一个处女座的程序猿

已于 2024-11-16 00:20:29 修改

阅读量2.3k

点赞数 8

分类专栏： NLP/LLMs Python_Libraries 文章标签： PDF pymupdf4llm

于 2024-11-13 22:24:17 首次发布

本文链接：https://blog.csdn.net/qq_41185868/article/details/143744156

版权

NLP/LLMs 同时被 2 个专栏收录

776 篇文章

订阅专栏

Python_Libraries

263 篇文章

订阅专栏

Py之pymupdf4llm：pymupdf4llm的简介、安装和使用方法、案例应用之详细攻略

(1)、将文件提取Markdown并存储为 UTF8 编码文件

(2)、将文件提取LlamaIndex文档

(3)、与PyMuPDF Pro处理Office文档

pymupdf4llm的案例应用

pymupdf4llm的简介

PyMuPDF4LLM 是一个 Python 包，旨在简化从 PDF 文件中提取内容的过程，并以 LLM（大型语言模型）和 RAG（检索增强生成）环境所需的形式呈现这些内容。它支持 Markdown 提取和 LlamaIndex 文档输出。如果安装了 PyMuPDF Pro，还可以扩展支持 Office 文档格式（DOC/DOCX、XLS/XLSX、PPT/PPTX、HWP/HWPX）。

地址：https://pymupdf.readthedocs.io/en/latest/pymupdf4llm/

1、特点：

>> 支持多列页面。

>> 支持图像和矢量图形提取（并在 MD 文本中包含引用）。

>> 支持页面分块输出。

>> 直接支持输出为 LlamaIndex 文档。

2、功能：

>> PyMuPDF4LLM 使用 PyMuPDF 将文件的页面转换为 Markdown 格式的文本。

>> 它检测标准文本和表格，以正确的阅读顺序排列，然后将其转换为 GitHub 兼容的 Markdown 文本。

>> 标题行通过字体大小识别，并用一个或多个 # 标签作为前缀。

>> 检测粗体、斜体、等宽文本和代码块将被相应地格式化。类似地，有序列表和无序列表也是如此。

>> 默认情况下，所有文档页面都会被处理。如果需要，可以通过提供一个基于 0 的页码列表来指定页面的子集。

pymupdf4llm的安装和使用方法

1、安装

pip install pymupdf4llm
pip install -i https://mirrors.aliyun.com/pypi/simple pymupdf4llm

2、使用方法

(1)、将文件提取Markdown并存储为 UTF8 编码文件

将文件提取Markdown并存储Markdown文件

import pymupdf4llm
md_text = pymupdf4llm.to_markdown("input.pdf")
import pathlib
pathlib.Path("output.md").write_bytes(md_text.encode())

(2)、将文件提取LlamaIndex文档

import pymupdf4llm
llama_reader = pymupdf4llm.LlamaMarkdownReader()
llama_docs = llama_reader.load_data("input.pdf")

(3)、与PyMuPDF Pro处理Office文档

PyMuPDF.pro 是PyMuPDF的一个专业版，它提供了额外的功能和更好的性能，但通常需要付费购买。

import pymupdf4llm
import pymupdf.pro
pymupdf.pro.unlock()
md_text = pymupdf4llm.to_markdown("sample.doc")

pymupdf4llm的案例应用

持续更新中……