PDF文档转markdown工具实用体验

jujizhiwang

已于 2024-11-27 11:29:25 修改

阅读量1.3k

点赞数 30

文章标签： pdf

于 2024-11-26 18:10:40 首次发布

本文链接：https://blog.csdn.net/qq_42829480/article/details/144064951

版权

在做AI研究和大语言模型训练时，我遇到了从大量文档和网页中提取数据的情况。尤其是PDF、网页等格式，市面的提取工具我都有尝试过，基本所有的软件都有试用期且很多效果没有达到预期，大批量的提取需要充值会员。后面我发现了 MinerU，试了一下，可以很好的满足我的PDF提取需求，下面分享一下使用经验：

什么是MinerU

MinerU，由 OpenDataLab 团队开发，已经在GitHub上收获了超过 18.5K stars。它专门为复杂的多模态文档和网页设计，能够将PDF、PPT、DOC等各种文档转化为我和机器都能轻松处理的Markdown或JSON格式。它能智能提取文档中的图片、表格、公式等内容，效果非常精准。

我的使用体验

1. 操作简单，快速上手

在线使用：只需要访问官网，上传PDF文件，几秒钟后就能得到清晰的Markdown文件输出。操作简便，效率极高！

进入官网：MinerU在线体验
直接上传文档，自动转换成Markdown格式，不仅速度快，而且内容精准，表格、公式都能完美提取。最新版本已经支持批量上传文档提取，可以一次性上传多个文档，无需逐个操作，方便批量准换。
进入文档提取页面，上传文件，自动转换成makedown格式文件

在线体验版可批量上传文件，转换完成后点击查看任务可进行批量下载与解析
批量转换完成后可批量下载

2. 主要功能

MinerU的核心功能包括：

精准提取：它会自动删除页眉、页脚、页码等干扰内容，确保提取的文本结构清晰，语义连贯。
多模态支持：不仅能提取文本，还能提取图片、表格（转换为HTML格式）、公式（转换为LaTeX），简直是我的AI语料准备神器。
OCR支持：对于扫描版PDF或乱码文档，MinerU内置OCR功能，支持识别 84种语言，可以让识别效果更精准。

3. API与批量上传功能

除了在线体验，MinerU还提供了 API接口，可以在自己的开发环境中快速集成它，批量处理文档。特别是对于需要大规模文档处理的任务，批量上传功能非常方便，节省了大量时间和精力。

API申请入口：https://opendatalab.com/OpenSourceTools/mineru/api

4. Huggingface在线使用

Huggingface上也有在线体验的demo：https://huggingface.co/spaces/opendatalab/MinerU

可以在上传文件前选择对应的配置项，提高文件的识别转换效率
- layout model：doclayout_yolo、layoutlmv3
- language：支持 84 种语言的检测和识别，选择转换文档语言转换效率更精准，未选择会自动识别
- Enable formula recognition：开启后，将精准识别文档中的数学公式和符号，提升公式提取效果。
- Force enable OCR：开启后，将强制使用 OCR 技术对文档进行文字识别，适用于图片格式或低质量文档的内容提取。
- Enable table recognition(test)：开启后，系统将优先精准识别文档中的表格内容。注意：该功能目前为测试版，识别效果可能有所不同。
上传文档，点击convert，进行转换