tanis_2077-CSDN博客

原创从 PDF 中精准提取表格、图片与公式：MinerU 结构化元素抽取的 3 种方案

如果你需要在自己的项目中进行 PDF 解析、表格识别、公式提取或版面还原，可以结合自身对 Token 控制、坐标精度和代码复杂度的需求，从上述三种方案中选择最匹配的一种。它不再只输出纯文本，而是返回一个 JSON 层级结构——告诉你每个元素的类型（表格、图片、公式、文本块）、坐标（bbox）、阅读顺序以及结构化正文（表格的 HTML、公式的 LaTeX）。通过版面分析还原文档的逻辑结构，再逐元素提取表格、公式和图片——这种基于结构化元素抽取的路径，使 PDF 的结构化数据可用于下游流水线和自动化处理。

2026-05-07 18:23:57 2

原创 MinerU vs Docling vs Marker：开源文档解析工具深度对比

三款工具的输出格式支持形成差异化矩阵。MinerU的核心输出为 Markdown 和 JSON，其中 Markdown 用于人类可读场景，JSON（包括 middle.json 和 content_list.json）用于机器处理场景。MinerU 2.5 系列对 JSON 结构进行了调整，以支持 VLM 后端新增的 layout type，这种演进反映了其输出格式与模型能力的深度绑定。

2026-05-06 17:33:52 594

原创 MinerU + DeepSeek V4:竖排繁体 PDF转简体横排阅读方案

竖排繁体PDF高效转换方案传统PDF工具难以处理竖排繁体文本，导致阅读和提取困难。MinerU通过视觉理解技术，在布局分析阶段同步预测文本旋转角度和阅读顺序，准确还原竖排结构，输出结构化Markdown。再结合DeepSeek V4 Flash进行繁简转换与横排重排，实现本地化高效处理。核心优势： MinerU原生支持竖排识别，避免传统OCR的顺序错乱两阶段处理：先提取结构，再语言转换，确保准确性低成本API调用，无需复杂部署适用场景：古籍、民国文献、港台期刊等竖排繁体资料的数字化整理。

2026-05-05 10:44:29 471

原创扫描版中文 PDF 怎么提取文字：用 MinerU 做 OCR + 结构化一体处理

摘要：扫描版PDF转换为可编辑文本时面临版面信息丢失的问题。MinerU通过结合OCR、版面还原和结构化输出，能够保留文档层级、表格和公式等关键信息。提供三种处理方案：1）在线Extractor快速转换；2）MinerU-Open-CLI命令行工具批量处理；3）开源本地部署满足数据合规需求。测试显示其版面还原准确率达95.69%，支持Markdown、JSON、DOCX等多种输出格式，适用于合同、论文等不同文档类型的高效结构化处理。

2026-05-01 09:58:21 535

原创 MinerU2.5-Pro 中文 PDF 识别准确率全解：OmniDocBench v1.6 权威基准数据

OmniDocBench v1.6基准评测报告摘要文档解析领域长期存在评测标准碎片化问题，OmniDocBench v1.6作为统一评测平台，通过整合四大核心评估指标（文本编辑距离、表格TEDS、公式CDM和阅读顺序编辑距离），为模型性能对比提供了标准化框架。最新评测结果显示，1.2B参数的专用文档解析模型MinerU2.5-Pro以95.69的综合得分位列第一，在保持相同架构下通过数据工程优化实现2.71分的显著提升。该模型在文本识别（字符准确率98.1%）、表格还原（TEDS 91.10）和公式识别（

2026-05-01 09:46:17 479

原创 MinerU + RAG 集成实战：从 PDF 结构化解析到精准检索

本文介绍了如何将MinerU与RAG系统集成，提升PDF文档的解析质量和检索效果。主要内容包括： MinerU作为结构化抽取层的关键作用，相比传统PDF解析工具能更好地保留文档的版面结构、公式和表格信息，输出Markdown或元素级JSON格式。详细对比了MinerU与传统工具在输出结构、公式处理、表格识别等方面的差异，展示MinerU在保留语义完整性上的优势。提供了从环境安装到端到端实现的完整Demo，包括MinerU解析、文本分割、向量存储和检索的全流程代码示例。实测数据显示，MinerU能显著提

2026-04-29 16:11:35 620

原创 MinerU MCP Server 部署与工作流实战：Claude Desktop / Cursor / Cline 接入指南

MCP协议革新AI工具集成方式：2026年主流AI宿主(Claude Desktop/Cursor/Cline)已原生支持MCP协议，实现"配置即接入"的工具调用能力。MinerU MCP Server作为文档理解工具服务，提供PDF/Word/PPT等文件的智能解析能力，保留表格、公式等结构化信息为Markdown格式。文章详细对比了stdio和streamable-http两种部署模式，分别适合个人开发和团队共享场景，并提供了Claude Desktop等宿主的具体配置方法。通过MC

2026-04-29 15:38:17 695

原创 PDF文档解析API对比：MinerU vs Docparser vs PDF.co_消费者选型指南

本文从企业与开发者视角，深度横评了 MinerU、Docparser 和 PDF.co 三款主流 PDF 解析 API。实测表明：MinerU 凭借完美的 Markdown 原生输出、卓越的复杂公式识别及支持私有化部署，成为构建 RAG 系统及处理中文文档的最佳基建；Docparser 更擅长处理无代码票据提取；PDF.co 则是轻量集成的全能工具。一文帮您看透优劣，精准完成技术选型！

2026-04-24 18:53:25 559

原创 MinerU LlamaIndex 集成深度指南：一键打通复杂文档与大模型数据索引架构

MinerU是一款开源的文档解析工具，能够将PDF、Word等各类文档转换为结构化Markdown。文章介绍了其与LlamaIndex的集成方案，主要内容包括： MinerU核心能力：支持PDF转Markdown、公式识别、表格提取等功能，在基准测试中表现优异安装与使用：提供Python安装指南和简单代码示例两种解析模式：Flash模式（免Token）和Precision模式（需Token）的特性对比进阶用法：包括批量加载、按页拆分、自定义元数据等 RAG应用示例：展示如何将MinerU解析结果与Ll

2026-04-16 16:00:35 633

原创 MinerU LangChain 集成深度指南：一行代码搞定 PDF 到 RAG

MinerU 携手 LangChain 推出官方 Document Loader (`langchain-mineru`)。只需一行代码，即可将复杂 PDF、图片及 Office 文档高精度解析为结构化 Markdown，无缝桥接至 LangChain的 RAG 流水线。极大降低了文档处理门槛，助力开发者轻松构建企业级大模型知识库与原生 AI 应用。

2026-04-16 15:46:30 778

原创 MinerU JS/TS SDK 深度指南：JavaScript/TypeScript 开发者的 PDF/文档解析利器

MinerU JS/TS SDK (`mineru-open-sdk`) 是专为 JavaScript 和 TypeScript 开发者打造的一站式文档解析利器。通过简单的代码集成，即可将 PDF、图片及 Office 文档精准转换为结构化 Markdown，其公式识别率高达 98%。SDK 深度适配 Node.js 环境，提供 Flash（免登录极速解析）与 Precision（全功能精准解析）双模式，是构建 RAG 系统、AI Agent 及智能化文档处理流水线的核心组件，助力开发者轻松驾驭非结构化数据

2026-04-14 17:57:27 597

原创 MCP协议2025年大爆发，2026年反而相对平静——是真的走向成熟期，还是走向衰退？

MCP协议在2025年因解决AI工具互联标准化问题引发热潮，大厂纷纷跟进，但2026年热度骤降。质疑者指出MCP在工程实践中存在连接不稳定、上下文膨胀等问题，基准测试显示其效率低于CLI。尽管技术圈争议不断，大厂仍持续投入，MCP通过规范更新优化认证与连接机制。当前阶段，MCP的平静期反映技术成熟与泡沫消退并存：个人开发者倾向CLI的简洁性，而企业级应用等待协议完善。最终，AI编程的真实需求仍将回归效率优先，MCP能否成为主流取决于其简化复杂性的能力。

2026-04-13 09:11:19 501

原创 MCP 服务器配置：让 AI 助手直接解析 PDF 文档

MinerU是一款由上海人工智能实验室开发的文档解析工具，可将PDF、Word等文件转换为结构化格式。最新版本MinerU2.5-Pro在1.2B小参数量下实现了95.69分的行业领先性能。通过MCP协议，用户可轻松配置Claude、Cursor等AI客户端直接调用MinerU解析文档。安装只需一条uvx命令，支持两种模式：免登录的Flash模式（20页限制）和需要Token的精准模式（600页上限）。配置完成后，用户可通过自然语言指令让AI助手解析本地或在线文档，支持PDF、图片等多种格式。系统还提供日志

2026-04-11 14:38:52 428

lingxie2512的博客