- 博客(18)
- 收藏
- 关注
原创 从 PDF 中精准提取表格、图片与公式:MinerU 结构化元素抽取的 3 种方案
如果你需要在自己的项目中进行 PDF 解析、表格识别、公式提取或版面还原,可以结合自身对 Token 控制、坐标精度和代码复杂度的需求,从上述三种方案中选择最匹配的一种。它不再只输出纯文本,而是返回一个 JSON 层级结构——告诉你每个元素的类型(表格、图片、公式、文本块)、坐标(bbox)、阅读顺序以及结构化正文(表格的 HTML、公式的 LaTeX)。通过版面分析还原文档的逻辑结构,再逐元素提取表格、公式和图片——这种基于结构化元素抽取的路径,使 PDF 的结构化数据可用于下游流水线和自动化处理。
2026-05-07 18:23:57
2
原创 MinerU vs Docling vs Marker:开源文档解析工具深度对比
三款工具的输出格式支持形成差异化矩阵。MinerU的核心输出为 Markdown 和 JSON,其中 Markdown 用于人类可读场景,JSON(包括 middle.json 和 content_list.json)用于机器处理场景。MinerU 2.5 系列对 JSON 结构进行了调整,以支持 VLM 后端新增的 layout type,这种演进反映了其输出格式与模型能力的深度绑定。
2026-05-06 17:33:52
594
原创 MinerU + DeepSeek V4:竖排繁体 PDF转简体横排阅读方案
竖排繁体PDF高效转换方案 传统PDF工具难以处理竖排繁体文本,导致阅读和提取困难。MinerU通过视觉理解技术,在布局分析阶段同步预测文本旋转角度和阅读顺序,准确还原竖排结构,输出结构化Markdown。再结合DeepSeek V4 Flash进行繁简转换与横排重排,实现本地化高效处理。 核心优势: MinerU原生支持竖排识别,避免传统OCR的顺序错乱 两阶段处理:先提取结构,再语言转换,确保准确性 低成本API调用,无需复杂部署 适用场景:古籍、民国文献、港台期刊等竖排繁体资料的数字化整理。
2026-05-05 10:44:29
471
原创 扫描版中文 PDF 怎么提取文字:用 MinerU 做 OCR + 结构化一体处理
摘要:扫描版PDF转换为可编辑文本时面临版面信息丢失的问题。MinerU通过结合OCR、版面还原和结构化输出,能够保留文档层级、表格和公式等关键信息。提供三种处理方案:1)在线Extractor快速转换;2)MinerU-Open-CLI命令行工具批量处理;3)开源本地部署满足数据合规需求。测试显示其版面还原准确率达95.69%,支持Markdown、JSON、DOCX等多种输出格式,适用于合同、论文等不同文档类型的高效结构化处理。
2026-05-01 09:58:21
535
原创 MinerU2.5-Pro 中文 PDF 识别准确率全解:OmniDocBench v1.6 权威基准数据
OmniDocBench v1.6基准评测报告摘要 文档解析领域长期存在评测标准碎片化问题,OmniDocBench v1.6作为统一评测平台,通过整合四大核心评估指标(文本编辑距离、表格TEDS、公式CDM和阅读顺序编辑距离),为模型性能对比提供了标准化框架。最新评测结果显示,1.2B参数的专用文档解析模型MinerU2.5-Pro以95.69的综合得分位列第一,在保持相同架构下通过数据工程优化实现2.71分的显著提升。该模型在文本识别(字符准确率98.1%)、表格还原(TEDS 91.10)和公式识别(
2026-05-01 09:46:17
479
原创 MinerU + RAG 集成实战:从 PDF 结构化解析到精准检索
本文介绍了如何将MinerU与RAG系统集成,提升PDF文档的解析质量和检索效果。主要内容包括: MinerU作为结构化抽取层的关键作用,相比传统PDF解析工具能更好地保留文档的版面结构、公式和表格信息,输出Markdown或元素级JSON格式。 详细对比了MinerU与传统工具在输出结构、公式处理、表格识别等方面的差异,展示MinerU在保留语义完整性上的优势。 提供了从环境安装到端到端实现的完整Demo,包括MinerU解析、文本分割、向量存储和检索的全流程代码示例。 实测数据显示,MinerU能显著提
2026-04-29 16:11:35
620
原创 MinerU MCP Server 部署与工作流实战:Claude Desktop / Cursor / Cline 接入指南
MCP协议革新AI工具集成方式:2026年主流AI宿主(Claude Desktop/Cursor/Cline)已原生支持MCP协议,实现"配置即接入"的工具调用能力。MinerU MCP Server作为文档理解工具服务,提供PDF/Word/PPT等文件的智能解析能力,保留表格、公式等结构化信息为Markdown格式。文章详细对比了stdio和streamable-http两种部署模式,分别适合个人开发和团队共享场景,并提供了Claude Desktop等宿主的具体配置方法。通过MC
2026-04-29 15:38:17
695
原创 PDF文档解析API对比:MinerU vs Docparser vs PDF.co_消费者选型指南
本文从企业与开发者视角,深度横评了 MinerU、Docparser 和 PDF.co 三款主流 PDF 解析 API。实测表明:MinerU 凭借完美的 Markdown 原生输出、卓越的复杂公式识别及支持私有化部署,成为构建 RAG 系统及处理中文文档的最佳基建;Docparser 更擅长处理无代码票据提取;PDF.co 则是轻量集成的全能工具。一文帮您看透优劣,精准完成技术选型!
2026-04-24 18:53:25
559
原创 MinerU LlamaIndex 集成深度指南:一键打通复杂文档与大模型数据索引架构
MinerU是一款开源的文档解析工具,能够将PDF、Word等各类文档转换为结构化Markdown。文章介绍了其与LlamaIndex的集成方案,主要内容包括: MinerU核心能力:支持PDF转Markdown、公式识别、表格提取等功能,在基准测试中表现优异 安装与使用:提供Python安装指南和简单代码示例 两种解析模式:Flash模式(免Token)和Precision模式(需Token)的特性对比 进阶用法:包括批量加载、按页拆分、自定义元数据等 RAG应用示例:展示如何将MinerU解析结果与Ll
2026-04-16 16:00:35
633
原创 MinerU LangChain 集成深度指南:一行代码搞定 PDF 到 RAG
MinerU 携手 LangChain 推出官方 Document Loader (`langchain-mineru`)。只需一行代码,即可将复杂 PDF、图片及 Office 文档高精度解析为结构化 Markdown,无缝桥接至 LangChain的 RAG 流水线。极大降低了文档处理门槛,助力开发者轻松构建企业级大模型知识库与原生 AI 应用。
2026-04-16 15:46:30
778
原创 MinerU JS/TS SDK 深度指南:JavaScript/TypeScript 开发者的 PDF/文档解析利器
MinerU JS/TS SDK (`mineru-open-sdk`) 是专为 JavaScript 和 TypeScript 开发者打造的一站式文档解析利器。通过简单的代码集成,即可将 PDF、图片及 Office 文档精准转换为结构化 Markdown,其公式识别率高达 98%。SDK 深度适配 Node.js 环境,提供 Flash(免登录极速解析)与 Precision(全功能精准解析)双模式,是构建 RAG 系统、AI Agent 及智能化文档处理流水线的核心组件,助力开发者轻松驾驭非结构化数据
2026-04-14 17:57:27
597
原创 MCP协议2025年大爆发,2026年反而相对平静——是真的走向成熟期,还是走向衰退?
MCP协议在2025年因解决AI工具互联标准化问题引发热潮,大厂纷纷跟进,但2026年热度骤降。质疑者指出MCP在工程实践中存在连接不稳定、上下文膨胀等问题,基准测试显示其效率低于CLI。尽管技术圈争议不断,大厂仍持续投入,MCP通过规范更新优化认证与连接机制。当前阶段,MCP的平静期反映技术成熟与泡沫消退并存:个人开发者倾向CLI的简洁性,而企业级应用等待协议完善。最终,AI编程的真实需求仍将回归效率优先,MCP能否成为主流取决于其简化复杂性的能力。
2026-04-13 09:11:19
501
原创 MCP 服务器配置:让 AI 助手直接解析 PDF 文档
MinerU是一款由上海人工智能实验室开发的文档解析工具,可将PDF、Word等文件转换为结构化格式。最新版本MinerU2.5-Pro在1.2B小参数量下实现了95.69分的行业领先性能。通过MCP协议,用户可轻松配置Claude、Cursor等AI客户端直接调用MinerU解析文档。安装只需一条uvx命令,支持两种模式:免登录的Flash模式(20页限制)和需要Token的精准模式(600页上限)。配置完成后,用户可通过自然语言指令让AI助手解析本地或在线文档,支持PDF、图片等多种格式。系统还提供日志
2026-04-11 14:38:52
428
原创 用命令行批量解析 PDF:mineru-open-api CLI 完整教程
MinerU CLI工具是上海人工智能实验室开源的文档解析利器,支持一键将PDF、Word等文件转换为结构化格式。最新2.5-Pro版本在OmniDocBench基准测试中取得95.69分,仅需1.2B参数即可实现高效解析。提供flash-extract(免登录)和extract(功能全面)两种模式,支持批量处理、多格式输出(Markdown/JSON等)及网页抓取功能。安装简单,Windows/macOS/Linux均可快速部署,是文档处理的高效解决方案。
2026-04-11 14:32:23
562
原创 claude_code_mineru_skill
Claude Code等AI编程助手无法直接解析PDF的问题可以通过安装MinerU的Skill解决。只需运行npx skills add tanis90/pdf-converter-mineru即可让AI助手自动解析PDF文档。该方案基于OpenClaw标准,轻量易用且免费,相比手动转换效率更高。MinerU引擎采用双解析策略,能准确处理复杂表格、公式和图文混排内容,在学术论文复现和API文档解析等场景表现优异。该技术由上海人工智能实验室开源,在多项评测中领先。
2026-04-09 19:59:34
280
原创 一行命令,让你的 Code Agent 会读PDF
摘要:本文介绍了一行命令npx skills add tanis90/pdf-converter-mineru,能让各类Code Agent获得PDF文档解析能力。该命令安装基于OpenClaw的Skill,集成MinerU文档解析引擎,支持自动处理PDF、扫描件、Word等格式,具备版面分析、表格识别等功能。安装后可直接用自然语言指令让AI助手读取文档内容,适用于论文阅读、合同解析等场景,相比传统MCP server方案更轻量便捷,支持跨工具使用。
2026-04-09 09:00:37
883
原创 һ���������� Code Agent ����ĵ�
当前主流AI编程助手(如Claude Code、Cursor等)普遍存在无法直接读取PDF文件的短板。本文介绍了一种简单解决方案:只需运行命令npx skills add tanis90/pdf-converter-mineru,即可为Code Agent添加PDF处理能力。该技能基于开源的MinerU文档解析引擎,支持论文、技术文档、扫描合同等多种PDF格式的读取、分析和内容提取,并能自动选择快速模式或高精度模式进行处理。安装后,用户可直接要求AI助手"帮我读这个PDF",无需额外配置
2026-04-08 18:18:02
369
原创 免费 PDF 转 Word:用 MinerU Open API 一键导出可编辑 DOCX
是 MinerU 提供的免费命令行工具,用来从文档中提取结构化内容。:免登录、速度快,但只能输出 Markdownextract:精度更高,支持导出mdjsonhtmllatexdocx如果你的目标是PDF 转 Word。
2026-04-08 16:26:24
716
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅