Py之pymupdf4llm:pymupdf4llm的简介、安装和使用方法、案例应用之详细攻略
目录
(1)、将文件提取Markdown并存储为 UTF8 编码文件
pymupdf4llm的简介
PyMuPDF4LLM 是一个 Python 包,旨在简化从 PDF 文件中提取内容的过程,并以 LLM(大型语言模型)和 RAG(检索增强生成)环境所需的形式呈现这些内容。它支持 Markdown 提取和 LlamaIndex 文档输出。 如果安装了 PyMuPDF Pro,还可以扩展支持 Office 文档格式(DOC/DOCX、XLS/XLSX、PPT/PPTX、HWP/HWPX)。
地址:https://pymupdf.readthedocs.io/en/latest/pymupdf4llm/
1、特点:
>> 支持多列页面。
>> 支持图像和矢量图形提取(并在 MD 文本中包含引用)。
>> 支持页面分块输出。
>> 直接支持输出为 LlamaIndex 文档。
2、功能:
>> PyMuPDF4LLM 使用 PyMuPDF 将文件的页面转换为 Markdown 格式的文本。
>> 它检测标准文本和表格,以正确的阅读顺序排列,然后将其转换为 GitHub 兼容的 Markdown 文本。
>> 标题行通过字体大小识别,并用一个或多个 # 标签作为前缀。
>> 检测粗体、斜体、等宽文本和代码块将被相应地格式化。类似地,有序列表和无序列表也是如此。
>> 默认情况下,所有文档页面都会被处理。如果需要,可以通过提供一个基于 0 的页码列表来指定页面的子集。
pymupdf4llm的安装和使用方法
1、安装
pip install pymupdf4llm
pip install -i https://mirrors.aliyun.com/pypi/simple pymupdf4llm
2、使用方法
(1)、将文件提取Markdown并存储为 UTF8 编码文件
将文件提取Markdown并存储Markdown文件
import pymupdf4llm
md_text = pymupdf4llm.to_markdown("input.pdf")
import pathlib
pathlib.Path("output.md").write_bytes(md_text.encode())
(2)、将文件提取LlamaIndex文档
import pymupdf4llm
llama_reader = pymupdf4llm.LlamaMarkdownReader()
llama_docs = llama_reader.load_data("input.pdf")
(3)、与PyMuPDF Pro处理Office文档
PyMuPDF.pro 是PyMuPDF的一个专业版,它提供了额外的功能和更好的性能,但通常需要付费购买。
import pymupdf4llm
import pymupdf.pro
pymupdf.pro.unlock()
md_text = pymupdf4llm.to_markdown("sample.doc")
pymupdf4llm的案例应用
持续更新中……