Py之pymupdf4llm:pymupdf4llm的简介、安装和使用方法、案例应用之详细攻略

Py之pymupdf4llm:pymupdf4llm的简介、安装和使用方法、案例应用之详细攻略

目录

pymupdf4llm的简介

1、特点:

2、功能:

pymupdf4llm的安装和使用方法

1、安装

2、使用方法

(1)、将文件提取Markdown并存储为 UTF8 编码文件

(2)、将文件提取LlamaIndex文档

(3)、与PyMuPDF Pro处理Office文档

pymupdf4llm的案例应用


pymupdf4llm的简介

PyMuPDF4LLM 是一个 Python 包,旨在简化从 PDF 文件中提取内容的过程,并以 LLM(大型语言模型)和 RAG(检索增强生成)环境所需的形式呈现这些内容。它支持 Markdown 提取和 LlamaIndex 文档输出。 如果安装了 PyMuPDF Pro,还可以扩展支持 Office 文档格式(DOC/DOCX、XLS/XLSX、PPT/PPTX、HWP/HWPX)。

地址:https://pymupdf.readthedocs.io/en/latest/pymupdf4llm/

1、特点:

>> 支持多列页面。

>> 支持图像和矢量图形提取(并在 MD 文本中包含引用)。

>> 支持页面分块输出。

>> 直接支持输出为 LlamaIndex 文档。

2、功能:

>> PyMuPDF4LLM 使用 PyMuPDF 将文件的页面转换为 Markdown 格式的文本。

>> 它检测标准文本和表格,以正确的阅读顺序排列,然后将其转换为 GitHub 兼容的 Markdown 文本。

>> 标题行通过字体大小识别,并用一个或多个 # 标签作为前缀。

>> 检测粗体、斜体、等宽文本和代码块将被相应地格式化。类似地,有序列表和无序列表也是如此。

>> 默认情况下,所有文档页面都会被处理。如果需要,可以通过提供一个基于 0 的页码列表来指定页面的子集。

pymupdf4llm的安装和使用方法

1、安装

pip install pymupdf4llm
pip install -i https://mirrors.aliyun.com/pypi/simple pymupdf4llm

2、使用方法

(1)、将文件提取Markdown并存储为 UTF8 编码文件

将文件提取Markdown并存储Markdown文件

import pymupdf4llm
md_text = pymupdf4llm.to_markdown("input.pdf")
import pathlib
pathlib.Path("output.md").write_bytes(md_text.encode())

(2)、将文件提取LlamaIndex文档

import pymupdf4llm
llama_reader = pymupdf4llm.LlamaMarkdownReader()
llama_docs = llama_reader.load_data("input.pdf")

(3)、与PyMuPDF Pro处理Office文档

PyMuPDF.pro 是PyMuPDF的一个专业版,它提供了额外的功能和更好的性能,但通常需要付费购买。

import pymupdf4llm
import pymupdf.pro
pymupdf.pro.unlock()
md_text = pymupdf4llm.to_markdown("sample.doc")

pymupdf4llm的案例应用

持续更新中……

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值