OpenDataLab-CSDN博客

原创一句话，让你的[特殊字符]看懂PDF，MinerU 官方 Skill 来了！附赠开发者“全家桶”

是一款免费开源的文档解析引擎，专门解决这个问题——版面分析、表格识别、公式提取、OCR 一手包办，把任何"难啃"的文档变成 AI 能直接使用的结构化 Markdown。这些文档，普通工具根本啃不动。提供了不同颗粒度的集成路径——无论你是想快速验证、深度集成，还是构建生产级应用，都能找到最顺手的方式。等在内的完整开发者生态：一套工具，覆盖从 Agent 对话到生产部署的全场景，支持便捷调用、集成。深度集成，在加载阶段直接完成解析+分块，每个 chunk 携带原始页码、版面类型、位置信息。

2026-03-24 16:46:11 21

原创领跑 AI-Ready 数据赛道：MinerU 全面深度适配主流国产算力，持续扩容生态版图

持续扩大算力兼容版图，通过与 DeepLink 团队及多家算力厂家的合作，针对不同架构的优化，能够实现在各类算力平台上实现稳定、高效的运行，有效解决了算力兼容性难题。团队、 DeepLink 团队及国产芯片厂家携手，先后完成了昇腾、平头哥、沐曦、海光、燧原、摩尔线程、天数智芯、寒武纪、昆仑芯、太初元碁、壁仞等 10 余家主流国产算力的适配。的核心价值在于其跨行业的普适性与极高的解析精度。，深耕 AGI4S 前沿领域，致力于攻克复杂文献与多维科学数据的解析难题，为科研创新筑牢数据根基。深度集成于业务流程。

2026-03-01 00:30:00 952

原创如何科学地“设计”微调数据？一次关于后训练数据价值评测平台（ODA）的完整验证

在大模型后训练阶段，SFT（监督微调）数据的构建至关重要。然而，长期以来，这一过程业界的通行做法往往依赖“直觉”或“试错”，即多收一点、再筛一轮、训一次模型、看下效果，然后再调整。这个过程不仅成本高昂，而且很难回答一个根本性问题——哪些数据是真的“有用”的，为什么？为了摆脱“盲盒式”微调，急需建立一套科学的数据效能评估方法，用以成为数据生产的“指南针”。

2026-02-28 00:45:00 845

原创告别手动录入！MinerU KIE功能上线，三步搞定票据关键信息提取

它基于先进的文档解析与大模型技术，提供了一套精准、灵活、可信的智能信息处理流水线，能够准确理解发票、票据、表单等文档的复杂布局，支持按不同的业务需求，自由定义需要提取的字段，输出清晰、可信的结构化结果。有没有一种方式，不仅能灵活、精准、批量、高效地提取票据表单中的关键信息，更能将这些提取出的结构化数据，直接用于构建企业知识库、开发智能业务助手（Agent）或进行深度的数据分析，让每一份文档都发挥更大的价值？● 票据场景：可批量提取发票号码、税号、日期、购销方、商品名称、数量、单价、价税合计等信息。

2026-02-28 00:30:00 1619

原创 MinerU再次更新，网页解析功能上线！URL一键变Markdown，文档处理再无边界

导言：各位的铁粉们，你们的“生产力神兵”又进化了！还在为DeepResearch获取网页信息、网页知识库构建、复杂网页内容提取、网页文章复制乱码等场景感到头疼吗？在 AI 数据处理领域，以和为代表的行业先行者已经为我们展示了“网页转 LLM 友好格式”的巨大潜力，这次我们直接把深度优化的“网页解析”功能装进了网页端与桌面端，凭借在公式、表格识别上的深厚积淀，让整个互联网都成为你的 AI-Ready 语料库！今天，我们边上手边拆解，带你玩转。

2026-02-27 00:15:00 1818

原创 ScienceMetaBench 开源：建立科学文献元数据提取的客观评测基准

导言：从科学文献 PDF 文档中提取作者、年份、摘要等元数据，构建高效索引与分析，并以此激活海量文档价值，能够直接帮助研究者、图书馆、企业及数据库平台等实现更高效的文献管理、资源数字化、AI知识库构建与数据聚合分析等。然而，面对排版复杂、元素多样的科学文献，如何客观地评估模型的元数据提取能力？为此，上海人工智能实验室 OpenDataLab 团队推出了科学文献元数据提取评测集，该基准旨在建立客观、统一的评估标准，助力社区衡量与比较各类前沿方法的实际性能。

2026-02-27 00:15:00 1526

原创总激励200万！2026 MinerU数据智能与前沿语料挑战赛正式启幕，筑基 AGI4S 高质量语料新高地！

在 AGI 爆发的前夜，作为“模塑申城语料普惠计划”的核心环节，今日正式启幕！本次大赛以构建「AI-Ready 数据」为核心驱动，旨在依托开源智能文档解析引擎 MinerU，深耕 AGI4S 前沿领域，致力于攻克复杂文献与多维科学数据的解析难题，为科研创新筑牢数据根基。同时，大赛紧扣产业转型需求，通过精准解析非结构化数据，加速行业应用场景的深度转化，全方位助力各类组织机构释放数据要素的战略价值。我们寻找能够挖掘非结构化数据深层价值、破解复杂数据解析难题的你！

2026-02-26 17:09:05 981

原创『面向AGI4S，构建下一代数据基础设施』上海AI实验室青年科学家入选第五届“上海科技青年35人引领计划”

何聪辉，清华大学博士，上海人工智能实验室青年科学家，数据平台中心负责人，长期深耕高性能计算与AI 据基础设施的交叉前沿，致力于构建面向通用人工智能的下一代数据基座。其构建的AI数据基座，覆盖“底层技术-评测标准-开源生态”的完整体系，为AGI的演进筑牢了关键的数据基石。何聪辉带领团队围绕“面向AI-Ready的下一代大模型数据基础设施”开展系统性、原创性研究，不仅填补了国际数据基础设施领域的多项技术空白，更推动了全球大模型数据生态的开源化与标准化，为解决AGI发展的数据瓶颈提供了可落地的中国方案。

2026-02-26 15:22:36 417

原创 OpenDataArena全面升级版正式上线，四大核心模块重构数据价值评估新格局

（文章发布于2025年12月23日）导言：为破解长期以来学界与业界的困局，上海人工智能实验室（上海AI实验室）OpenDataLab团队在今年8月开源了首个全面、公正的后训练数据价值评测平台——。该项目致力于将数据选择从“盲目试错”的炼丹术，转变为一门可复现、可分析、可累积的严谨科学。在初版系统发布后的数月间，项目通过团队内部及小范围社区用户的深度使用，完成了高强度的技术验证与功能打磨。伴随着评测规模、工具链和分析能力的持续扩展，近期，，该项目面向全体开发者开放。

2026-02-26 15:19:22 867

原创超实用！MinerU新增3个新功能，支持文档逐块修正

功能。上传 PDF 时，您可以精准指定需要解析的页码区间。想看哪里解哪里，可以让转换提取速度大幅提升。

2026-02-26 15:04:08 376

原创打破桎梏！MinerU-HTML重构网页提取范式，开源超大规模高质量多语言语料AICC

摘要：上海AI实验室OpenDataLab团队提出新一代网页提取工具MinerU-HTML，通过两阶段语义感知方法解决传统HTML提取的局限性。该工具首先用0.6B参数模型标注正文节点，再精细处理代码、公式等结构化元素，最终输出Markdown格式。基于此构建的AICC语料库（7.3万亿tokens）在多项测试中超越RefinedWeb等现有语料，尤其在通用知识和阅读理解任务上表现突出。实验证明高质量提取比激进过滤策略更有效，为大规模预训练提供了新标杆。团队开源了相关工具、模型及数据集，推动AI数据生态建设

2026-02-26 14:20:11 476

原创 MinerU2.5大模型发布了，有亿点点不一样

从评测结果来看，在权威的OmniDocBench基准测试中，MinerU2.5取得结果最优（SOTA），在布局检测、文本识别、表格识别、公式识别等关键指标上超越Gemini 2.5-Pro、GPT-4o等国际顶尖模型，对比开源文档解析方案（如MonkeyOCR、PP-StructureV3），MinerU2.5在解析精度、结构完整性和格式自然度方面同样处于优势地位。下一步，团队将持续拓展国际国内主流平台和开发工具的适配覆盖，进一步加强与重点行业应用的深度融合，打造更加开放、兼容、可扩展的技术生态体系。

2025-09-30 17:16:20 1827

原创高性能文档解析引擎MinerU再升级，全方位刷新行业SOTA，全面助力AI Ready数据自由

具体来说，Miner2.5在复杂文档处理上的进步，体现在结构还原与语义理解的双重提升。未来，团队将继续拓展更广泛的软件生态，不仅涵盖更多国内外主流 AI 平台和开发工具，也将加强与垂直行业应用的深度融合，打造开放、兼容、可扩展的技术生态体系，以支持更丰富的应用场景和更高效的产业落地。MinerU 2.5独辟蹊径，采用首创的“二阶段”解析架构，同时支持原生分辨率处理，从根源上最大限度地降低了信息失真的概率，实现了对复杂文档又快又准的解析效果，在显著减少“幻觉”现象的同时，大幅提升了解析结果的可靠性。

2025-09-28 16:02:59 1245

原创 MinerU2.5! 公式、表格解析统统不在话下！

之前我们发布了MinerU2.5模型，包含网页端/桌面客户端端/api 在内点MinerU 全线产品已经集成了最新模型，这波直接把文档解析做到天花板 💯。📚 无论科研、金融还是教育场景，MinerU 都能帮你轻松搞定高质量文档解析，为知识库构建省时又省力！更赞的是 👉 中文公式、复杂数学公式、嵌套表格都做了深度优化！✅ 无线/少线表格一键解析。

2025-09-28 15:33:57 611

原创告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena

数据在AI时代的重要性已经不言而喻，但悬而未决的是——如何精确量化这些数据的价值、辨别其优劣？为此，上海人工智能实验室OpenDataLab团队在数据领域持续深耕，正式推出了。地址：https://opendataarena.github.io/index.html工具：https://github.com/OpenDataArena/OpenDataArena-Tool数据：https://huggingface.co/OpenDataArena展开来说，在海量的SFT（监督式微调）

2025-08-29 18:56:02 952 1

原创战略科学家对话：AI+科学，数据和人才是关键

针对当前生命科学领域文本类数据已经“不够用”的现实困境，孙勇奎分享了解决思路，“进一步挖掘人类的生物数据并同步建立新数据生成机制，可以更好地开展AI训练，甚至让AI自行检索全球科研成果，提出更具潜力的假说并加以验证，进而提高药物研发成功率。罗毅介绍了合肥实验室的“AI化学家”，经过三年的迭代，它已经能自动完成80%的化学实验。他还分享了一则案例，实验室一名偏理论研究的同学，在AI的辅助下，仅用六个月便研发出了一款具有领先性的防阻燃材料，“由此看来，AI能够帮助科学家实现跨学科的重大发现”。

2025-08-29 18:45:05 810

原创 MinerU又双叒更新了！化学解析×多模式翻译等多种功能上线！文档解析处理爽到飞起！

翻译功能，想怎么翻就怎么翻！全文翻译、模块翻译，多种模式随心切换，满足你所有的翻译姿势！系统默认接入限时免费的GPT-4o-mini引擎，同时支持接入DeepL、Google、DeepSeek、硅基流动、阿里云百炼、腾讯混元等主流翻译服务，满足不同用户的翻译需求。你的反馈会直接驱动我们的解析模型优化，让你成为MinerU的“秘密武器”！近期，MinerU就像是坐上了火箭，功能蹭蹭往上涨，简直要让你的文档处理体验“爽”到飞起！现在你可以选择页码范围解析，只关注你最关心的部分，降低解析成本，效率直线飙升！

2025-08-12 18:09:31 1263 1

原创上海AI实验室发布MinerU2：通专融合路线如何补齐AI-Ready数据的最后一公里

随着模型技术发展，互联网数据趋同性导致通用大模型同质化，细分专业化成为深入行业落地的必然路径，这些数据常存在于私域，且以文档形式最为普遍。，支撑高质量AI-Ready的语料构建管线，将可解析场景延伸至科学数据领域，补齐AI-Ready数据的最后一公里，缩窄AGI促进科学发现的鸿沟，现已成为『书生』科学多模态大模型Intern-S1开源工具链中的重要一环。性能、速度跃升的同时，将可解析场景延伸至科学数据领域，补齐AI-Ready数据的最后一公里，缩窄AGI促进科学发现的鸿沟，已成为。

2025-08-12 17:19:53 1131

原创斩获ACL 2025最佳主题论文奖丨Meta-rater 框架，1% 算力锁定大模型最优数据

第63届国际计算语言学协会年（ACL 2025）于7月27日至8月1日在奥地利维也纳举行。作为NLP领域最具影响力的顶级盛会，今年的ACL依然吸引了全球众多顶尖学者参与，投稿数量与质量再创新高。在本届大会上，由上海人工智能实验室OpenDataLab团队与华东师范大学团队联合提出的研究成果Meta-rater框架聚焦于提升大语言模型预训练的数据筛选效率，相比以往依赖大规模试错的“黑箱式”方法，Meta-rater显著降低了算力开销，并通过多维度质量评估体系打破传统筛选标准的局限。

2025-08-12 17:12:38 1152

原创官宣！MinerU 正式接入和鲸 ModelWhale，加速科研进程！

近日，大模型文档语料生产引擎双方联合升级的功能在 ModelWhale 平台全新升级发布会上正式亮相！此次合作将 MinerU 强大的文档解析能力深度集成至 ModelWhale 智能工具中，为科研工作提供坚实数据支持。

2025-08-12 17:04:30 481

原创 AI“压力面”，DeepSeek性能暴跌近30% | 上海AI Lab&清华&人大

摘要：上海人工智能实验室、清华大学等团队提出REST框架，通过同时测试多个问题对大模型进行"压力测试"。研究发现，在GSM8K等7个基准测试中，即便顶级模型如DeepSeek-R1，在多重问题压力下性能骤降近30%。REST有效解决了传统评测区分度低、成本高、脱离现实的问题，揭示了模型在预算分配、抗干扰等方面的不足，特别发现"过度思考"是性能下降主因。该研究为开发更强大的推理模型提供了新思路，相关代码和数据集已开源。

2025-07-28 15:58:51 1220

原创 ACL 2025｜MathFusion题目融合框架出炉，让大模型数学推理能力倍增

MathFusion提出了一种创新的数学数据增强方法，通过融合不同数学问题来提升大模型的推理能力。该方法采用顺序、并列和条件三种融合策略，将原始问题组合成结构更复杂的新问题，从而增强模型处理关联性问题的能力。实验表明，仅需45K合成指令，MathFusion就能使模型在多个基准测试中平均准确率提升18.0个百分点，展现出卓越的数据效率和性能。该研究为提升大模型的复杂推理能力提供了新思路，相关成果已被ACL 2025接收。

2025-07-28 15:56:28 1183

原创新工具开源！Vis3大模型数据可视化利器：填 AK/SK 直接预览 S3 数据，JSON/视频/图片秒开！本地文件也可用

通过其智能识别数据结构、交互式可视化的能力，使数据以网页、Markdown、图片等视图模式清晰呈现，关键字段一目了然，大幅降低数据理解成本，助力用户快速洞察数据价值。无论是进行数据展示，还是深度分析挖掘，都能找到契合的呈现方式，让数据理解更透彻。灵活高效的数据接入方式，让你摆脱数据读取的繁琐和限制，专注于可视化分析。工具通过智能解析引擎自动识别数据结构，再配以精巧的可视化布局，将复杂数据中的关键信息以可视化的方式清晰呈现，显著节省用户在数据预览和理解过程中所耗费的时间与精力，让数据解读更高效。

2025-07-11 08:30:00 940

原创 2025《“人工智能+”行业发展蓝皮书》: AI数据，驱动智能时代的核心引擎

另一方面，数据开源使数据获取方式更便捷，随着国内外开源平台加速向多模态、工具链整合，以及社区协同方向的演进，开源平台正从从单一数据托管向。团队联合OpenGVLab团队基于前沿研究与实践，深度剖析了AI模型与数据需求升级、数据生产革新的双向赋能效应，以期帮助读者了解数据与模型协同进化的底层逻辑，在数据要素价值爆发的智能时代中抢占先机。从早期人工输入规则和知识图谱的符号主义，到深度学习时代，再到如今的大语言模型和多模态模型，每一次模型的技术突破都伴随着对数据需求的重新定义。

2025-07-10 08:30:00 954

原创 CVPR 2025｜OmniDocBench：PDF解析能力维度的指南针，让文档解析评测更全面、更精细

从多个来源搜集了近20万个PDF，在这批数据中做了采样和聚类，筛选了6000张PDF页面，对这批数据做了页面级别的类别标签标注（包括PDF类型、布局、语种、页面特殊情况等），然后在这个标注基础上做了一个均衡采样，并且人工检查去除了敏感数据，最终筛选出了981张多样化的PDF页面，覆盖了9类文档来源的高质量标注数据，包括学术论文、教材等基础类型，以及手写笔记、密排报纸等高挑战性样本。相关的技术和工具正在蓬勃发展，引起了较多的关注，但是现有的文档解析方法在多样性和评测全面性上还存在较多局限性。

2025-07-09 08:30:00 2080

原创 MinerU × Cherry Studio：知识库再添动力！

业界顶尖的预处理技术，并支持灵活的部署方式，能够极大地优化文档信息在 AI 应用中的流转效率和准确性，同时充分尊重和保障用户的数据主权，最终为每一位 Cherry Studio 用户带来更流畅、更智能、更值得信赖的产品体验。强大的文档解析能力深度集成到 Cherry Studio 的知识库与未来的对话功能中，为您带来前所未有的文档处理与信息获取体验。后，您上传到知识库的文档将经过更精细的处理，使 AI 对文档内容的理解更加深入和准确，从而显著提升知识库问答的质量和相关性。

2025-07-09 08:30:00 1546

原创 MinerU 教程第三弹：零基础使用 n8n 调用 MinerU MCP 搭建文档处理自动化系统

本教程旨在帮助用户在 n8n 平台中，搭建一个基于。

2025-07-08 08:45:00 1883

原创 CVPR 2025｜公式识别评测新指标CDM：视觉元素buff加成，让大模型公式识别评价更准确、更客观

大模型时代，基于个人文档库的 RAG 应用迅速崛起，而文档解析作为关键首步，直接决定了大模型对文档内容的理解程度与回答准确性。在面对科学类文档中大量的公式时，准确解析公式显得尤为关键。而评价一个模型是否准确的前提是有一个准确、公平的指标。然而，熟悉公式识别领域的人员会发现使用BLEU、EditDistance等纯文本指标无法准确地衡量公式识别的性能，原因是同一个公式存在多种Latex书写方式。

2025-07-08 08:30:00 1546

原创 MinerU MCP Server源码发布！打通大模型与MinerU，让 PDF 文档处理更 easy

交给大模型试试！

2025-07-07 15:17:41 2618 1

原创全自动调整数据配比，解放LLM工程师丨上海AI Lab&上海交大联合团队提出创新数据均衡方法，让大语言模型不“偏科”

【摘要】上海AI实验室与上海交通大学等机构联合提出IDEAL框架，用于优化大型语言模型(LLM)多任务训练中的数据均衡问题。研究发现传统SFT训练会导致模型能力不均衡，简单增加弱势领域数据效果有限。IDEAL通过量化各领域数据对模型性能的影响，动态调整训练集分布，在Llama3-18B实验中显著提升模型综合表现（如编码能力提升尤为明显）。该方法突破性地证明：优化数据配比比单纯增加数据量更有效，且训练轮次过多可能加剧能力失衡。最佳超参数m=0.15时，模型在4领域基准测试中平均性能提升显著，为LLM多能力对齐

2025-07-07 14:40:57 973

原创国家数据局点赞！OpenDataLab小语种数据标注方案入选《数据标注优秀案例集》

上海人工智能实验室OpenDataLab团队的小语种数据标注创新模式入选国家优秀案例。该团队打造了"万卷·丝路"多模态语料库，涵盖8种小语种的跨模态数据，并开发了LabelU和LabelLLM等开源工具。通过自主研发智能标注平台和标准化管理方案，标注效率提升50%，成本降低70%。创新亮点包括大模型标注技术、人机结合质检、系列标注工具开发及灵活的工作流程管理。该方案为小语种数据标注提供了高效解决方案，已开源相关资源供行业使用。

2025-06-30 17:18:18 1616

原创上海AI实验室无人机视觉语言导航最新基准！OpenFly：空中VLN的全能工具链与大规模测试基准

论文提出了OpenFly平台，用于大规模数据收集和室外空中VLN任务。OpenFly集成了多种渲染引擎，生成了多样且高质量的数据。提出的OpenFly-Agent模型在多个评估指标上表现优异，验证了其有效性，并为未来的空中导航研究提供了一个全面的基准。本文仅做学术分享。

2025-06-30 17:02:38 1492

原创零基础入门：MinerU 和 PyTorch、CUDA的关系

MinerU是一个基于PyTorch的深度学习模型运行程序，PyTorch支持多种加速方式，如CUDA和MPS，以提升运行速度。PyTorch是MinerU的核心库，必须安装，而torchvision作为辅助库，建议安装以支持图像处理任务。对于NVIDIA显卡用户，需安装NVIDIA显卡驱动和CUDA-Toolkit以启用GPU加速；而MacOS用户则可通过MPS加速。Anaconda作为Python科学计算平台，推荐用于环境管理。MinerU的运行仅需PyTorch和torchvision的CPU版本

2025-05-22 18:40:52 1653

原创 MinerU教程第二弹丨MinerU 本地部署保姆级“喂饭”教程

本文为MinerU的本地部署指南，MinerU是一款由上海人工智能实验室OpenDataLab团队开发的开源PDF转Markdown工具，适用于RAG、LLM语料准备等场景。文章详细介绍了MinerU的功能特性，包括文档处理、格式转换和运行环境支持。接着，提供了系统要求和基础环境配置的说明，并逐步指导用户完成Conda环境的创建、模型文件的下载以及GPU加速的配置。此外，文章还涵盖了功能测试、批量PDF转换、本地API服务的搭建和卸载MinerU的步骤。对于不熟悉代码或硬件条件有限的用户，推荐使用官方提供的

2025-05-22 18:31:39 24368 11

原创 MinerU教程第一弹丨Dify插件超详细配置攻略和工作流搭建案例，不允许还有人不会

MinerU与Dify联合研发的MinerU插件已在Dify市场上架，社区用户可通过该插件在Dify中搭建工作流。使用教程分为两种场景：一是配置MinerU官方在线API服务，需在Dify平台登录并添加MinerU插件，填写相关参数后即可使用；二是配置MinerU本地服务，前提是用户已在本地部署MinerU并构建了API服务，需在Dify中配置本地IP地址和端口。教程还提供了常见问题的解决方案，如处理PDF文件时遇到的错误，并指导用户如何通过修改Dify的配置文件来解决问题。最后，教程展示了如何通过Mine

2025-05-12 18:58:36 7575 8

原创用“万卷·丝路”数据集打造阿拉伯语版DeepSeek（附免费算力与教程）

在大语言模型（LLMs）推动自然语言处理领域发展的背景下，通用大模型在特定语言和专业领域的应用面临挑战。低秩自适应（LoRA）技术作为一种高效、灵活的微调方法，正引领行业变革。OpenDataLab与和鲸社区联合举办的“大模型小语种方向Lora微调workshop”深入探讨了LoRA技术的原理和应用，特别是在小语种领域的独特价值。本次workshop使用OpenDataLab的“万卷・丝路2.0”语料库，涵盖了数据准备、模型优化、训练策略等关键环节，旨在帮助参与者掌握大模型微调的实践技能。活动提供了教程、工

2025-05-12 18:42:16 1149

原创 2025 OpenDataLab&和鲸社区『大模型赋能科研』分享会圆满落幕！

在企业场景中，李浩鸣分享了利用大模型提升 SDR 工作流效率的实践经验，他介绍，传统会议纪要与信息提取工作耗时较长，而借助大模型，通过格式化字段提取，整个流程仅需 2-3 分钟即可完成。在多模态处理上，Google 模型优势明显，能高效处理音频、视频、PDF 等多种格式文档，对手写内容识别效果也较好，涉及多模态文档工作的用户可优先考虑；一起来看看他们的精彩分享。大模型在科研探索中发挥的价值远比以往任何时候都深入，无论是海量数据的处理、复杂文献的梳理，还是编程开发的瓶颈，大模型都能提供切实的解决方案。

2025-04-29 16:09:16 1343

空空如也

空空如也