OpenDataLab-CSDN博客

原创 2025 OpenDataLab&和鲸社区『大模型赋能科研』分享会圆满落幕！

在企业场景中，李浩鸣分享了利用大模型提升 SDR 工作流效率的实践经验，他介绍，传统会议纪要与信息提取工作耗时较长，而借助大模型，通过格式化字段提取，整个流程仅需 2-3 分钟即可完成。在多模态处理上，Google 模型优势明显，能高效处理音频、视频、PDF 等多种格式文档，对手写内容识别效果也较好，涉及多模态文档工作的用户可优先考虑；一起来看看他们的精彩分享。大模型在科研探索中发挥的价值远比以往任何时候都深入，无论是海量数据的处理、复杂文献的梳理，还是编程开发的瓶颈，大模型都能提供切实的解决方案。

2025-04-29 16:09:16 897

原创教程 | 给大模型插上小语种“翅膀”，附ms-swift韩语继续预训练与指令微调教程

在阿拉伯语、俄语、韩语、越南语、泰语5个语种基础上，新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。在纯文本数据基础上，新增图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据，覆盖多模态研究全链路；整体数据总量超过1150万条，音视频时长超过2.6万小时，满足多种研究任务的需求。

2025-04-29 15:56:25 824

原创 MinerU 偷偷放大招！3大新功能上线、模型重磅升级，解析效率超级加倍……

导出的文件能与WPS、浏览器、VSCode、Overleaf这些常用软件无缝衔接，不管是写论文、做报告、跨平台交互都能轻松搞定。● 引入paddleocr2torch技术方案，完全替代paddle框架以及paddleocr在项目中的使用，解决了paddle和torch的冲突问题，更实用的是，解析后的图片、表格、公式、文字元素。，使多行公式提取更精准、快速；

2025-04-21 13:57:42 426

原创【MinerU × LazyLLM】PDF无损拆包，让RAG更懂你的文章！附PDF解析组件选型与RAG案例分享

针对PDF格式文档版式多样、解析难度大等难题，上海人工智能实验室推出了一款究极武器——MinerU，各位开发者在以往的开发过程中可能听说过这个名字，但这玩意儿究竟是个啥呢？本文将带你一同探索它的奇妙之处，并带大家使用LazyLLM，结合MinerU打造PDF解析与RAG应用的无缝链路。

2025-04-21 13:26:11 1014

原创 MinerU大上新！桌面客户端、新版API、国产化适配版全都有，更多功能等你解锁

2024年7月，上海人工智能实验室OpenDataLab团队正式推出了智能数据提取工具——。具备将混合图片、公式、表格、脚注等在内的复杂多模态 PDF 文档转化为Markdown格式的能力，可大幅提升AI语料的准备效率。凭借快速准确、开源易用的能力特性，受到广大用户及大模型开发者青睐，，GitHub星标数已接近2.5万，被开发者誉为“大模型时代的文档提取、转换神器”。2025年1月，迎来新年更新，本次亮点一览：● 客户端上线，下载即用，无需编程，无需登录，简单拖拽操作即可快速完成多文档提取。

2025-03-24 14:02:01 1426

原创多语言语料库万卷·丝路2.0开源，数据模态全面升级，搭建文化交流互鉴AI桥梁

3月22日，上海人工智能实验室（上海AI实验室）联合新华社新闻信息中心、上海外国语大学、外研在线等，发布全新升级的，通过构建多语言开源数据底座，以人工智能赋能“一带一路”高质量建设。在“万卷·丝路1.0”的基础上，2.0语料库新增3类语料，涵盖共计数据，并运用精细化处理技术使数据质量达到“工业级”标准，实现“开箱即用”。”具有在5个语种基础上，新增等3个稀缺语料数据。在纯文本数据基础上，新增四大模态数据，覆盖多模态研究全链路；整体数据总量，音视频时长超过，满足多种研究任务的需求。

2025-03-24 12:22:23 827

原创遥感论文 | AAAI2025 | Urbench：多模态大模型在城市环境领域全新BenchMark，已开源，欢迎follow！

近年来，针对大型多模态模型（LMMs）的能力研究已覆盖多个领域，但专门针对城市环境的系统性评估体系仍较为匮乏。大多数现有的基准测试仅关注于单一视角下的区域级城市任务，无法全面评估 LMMs 在复杂城市环境中的表现。为此，本文提出了一个专为评估LMMs 在多视角城市场景中表现而设计的综合基准测试UrBench。本文三点贡献如下：一个多视角基准测试，旨在评估LMMs在城市环境中的表现。该基准包含14种城市任务，涵盖多个维度，既包括评估LMMs在城市规划能力的区域级任务，也涉及考察其应对日常问题的角色级任务。

2025-03-12 12:30:52 1000

原创记一个大模型医学rag知识库应用案例实践

很多人想要结合RAG技术和大模型，打造自己的垂类AI助手，但是不知道怎么做？有一个基于工具的二开项目，是一个很典型的RAG技术在垂直场景应用的案例，大家可以参考它是怎么做的，动手也构建一个自己的AI助手作者基于，二次构建了深度优化的文档解析引擎，实现医疗文档的多模态解析与知识萃取，形成标准化知识库；

2025-03-12 12:22:28 518

原创打造跨语言智能工具与应用，“万卷·丝路”专项课题开放申请

随着共建“一带一路”进入高质量发展阶段，全球开发者对于多语言模型训练的需求不断增长，上海AI实验室联合大模型语料数据联盟成员发布了，为多语言大模型训练提供高质量数据支撑，助力全球开发者构建跨语言智能工具与应用。）现面向全社会开放多语言课题合作及应用案例征集，并提供丰富、多维的资源支持，欢迎大家报名。发布以来，吸引众多开发者积极下载、使用。围绕该语料库的开源应用，上海人工智能实验室联合大模型语料数据联盟，

2025-03-05 17:50:11 908

原创在AI模型训练架构尚未革新以前，数据仍是核心“秘籍”

智能文档解析工具，能够打通私域数据到大模型可用数据的最后一公里，在发布短短几个月内在 Github 上获得 2.6 万个星标，加速了数据准备、模型迭代和落地的效率。数据、模型和工具链的开源，加速了 AI技术的民主化，让大家不用“重复造轮子”，聚焦在已有成果上的二次创新。以大家常见的数学题为例，我们关注的不仅是问题的最终答案，还包括解题过程中的思考步骤，甚至是试错的过程，都是极高价值的。数据是模型训练的“粮食”。此外，现在模型的“智商”已经到较高水平，要寻找模型学的还不够的数据，比如“高知识密度”数据。

2025-02-28 14:48:57 288

原创 AAAI2025 |OpenDataLab三大成果：城市环境多模态大模型评测、创新遥感图-文分析、CRaFT优化LLM拒绝机制

近日，第39届AAAI公布了2025年论文录用结果，上海人工智能实验室OpenDataLab团队在多模态大模型评测、遥感图像理解与知识提取、语言大模型安全调优领域的研究成果受到认可，共有三篇论文被会议录用

2025-02-28 14:46:30 919

转载免费下载 | 百万机器人真机数据 AgiBot World 上架OpenDataLab

2024年底，在具身智能方向，上海人工智能实验室携手等智元机器人、国家地方共建人形机器人创新中心、上海库帕思重磅开源了，具身智能领域也迎来了「ImageNet」时刻！（智元世界）—— 一个汇集百万真实机器人数据的开源数据集。在这个具身数据的世界里，机器人不再只是进行简单的桌面任务，而是全方位融入我们的日常生活。机器人和人类和谐相处世界的大幕，正在徐徐拉开。2024，哪个场景最符合你对未来机器人的想象？作你的「家务管家」，洗衣、做饭都交给它？

2025-01-21 11:13:36 389

原创多语言语料库“万卷·丝路”发布，AI赋能共建“一带一路”

随着共建“一带一路”进入高质量发展新阶段，科技创新与合作将在其中发挥更关键的作用。上海人工智能实验室（上海AI实验室）通过研发先进数据智能技术，提供多语言语料库等举措，探索以人工智能赋能高质量共建“一带一路”。1月9日，上海AI实验室联合大模型语料数据联盟成员发布了，为多语言大模型训练提供高质量数据支撑。首期开源了包含泰、俄、阿、韩、越等五个语种的语料，（单语种均超过150GB），涵盖使用上述语种国家地区的生活、百科、文化、新闻等七大领域数据。

2025-01-10 20:28:00 911

原创重磅发布！IMIS-Bench：3.61 亿个掩码！开创性交互式医学图像分割基准数据集IMed-361M

交互式医学图像分割 (IMIS）通过结合用户交互输入（如点击、边界框或文本提示），将人工智能的高效计算与临床专家的专业经验紧密融合，能够实时生成符合临床需求的高质量分割结果。然而，该领域长期面临数据规模和质量的双重瓶颈，缺乏类似自然图像领域 SA-1B 数据集那样大规模、高密度、标注精确的数据集。这限制了交互式医学图像分割技术的研究深度和实际应用广度。因此，构建大规模、高密度的交互式医学图像分割数据集，不仅是突破当前技术瓶颈的重要环节，更是推动人工智能深度融入医疗实践、赋能临床决策的关键基础。

2024-12-06 18:46:05 1032 1

原创最新MinerU直播回放来了，还有热门精华问答，速看！

11月20日，AI数据超能学院第3期直播，我们邀请了上海人工智能实验室 OpenDataLab数据提取工程师核心开发者赵小蒙在线详细讲解了的项目构成及最新模型效果，以及如何更好地基于进行二次开发和扩展应用。很多小伙伴意犹未尽，提了很多问题，我们整理了大家比较关心的内容，统一进行回复；另外附上了直播回放，以供参考。

2024-11-26 13:52:27 984

原创 MinerU 新版本发布，API内测开放申请，诚邀开发者共建

最新版本发布。本次更新进行了大量代码重构，降低了硬件需求，数据提取性能及易用性“双提升”。（点击查看MinerU介绍→全新版本接入了新的表格模型 StructTable-InternVL2-1B，表格解析选择更丰富。同时优化了线上Demo使用体验，开放API内测申请，参与“探索者”计划，加入开源共建，将有机会赢得精美周边及算力支持等丰富奖励。（点击文末“阅读原文”直达）● 重构模块代码，使用进行阅读顺序排序，确保在各种排版下都能实现极高准确率；● 重构。

2024-11-12 10:50:21 1142

原创 DocLayout-YOLO，让多样性文档布局检测更快、更准、更强

布局检测是文档解析领域的核心任务之一，目标是精准定位文档中不同类型的元素（正文、标题、表格、图片等）。尽管布局检测已经研究很多年，但现有的布局检测算法多关注在论文类型的文档，当面对多样性的文档（如教材、考题、研报等）时，其检测效果还是不及预期。上海人工智能实验室在2024年7月份开源的中提供了使用多样性文档微调的LayoutLMv3模型，在众多类型的文档上均取得了不错效果，但其推理速度相对较慢。为了满足实时高质量的推理需求，作者团队近日推出全新布局检测模型一起来看看。

2024-10-30 14:27:28 1157

原创免费下载 | 横跨120余年，数亿条学术数据，大规模学术数据库“智创”开源

其中包括论文的标题、摘要、期刊信息、作者信息、被引用次数以及发表年份等重要数据，同时还涵盖了不同类型和语种的论文。包含全球主要国家发布的科研项目信息，主要来源为美国、中国、日本、加拿大等国家，比如中国的自然科学基金项目、社会科学基金项目等。凭借其广泛的数据覆盖范围、专利数据的集成,以及开放获取的特点,为学术研究提供了便捷的一站式信息服务,有望成为全世界从事相关研究的科研人员的重要资源。● 对全球各个国家的科研基金信息数据进行了整合，对不同来源的科研项目数据进行去重，确保数据的唯一性。

2024-10-29 13:54:57 1083

原创赌你一定想要！OpenDataLab首款大模型多模态标注平台Label-LLM正式开源

宝藏级大模型多轮对话开源标注工具Label-LLM安装部署教程。

2024-08-24 08:15:00 3467

原创不是吧？这么好用的开源标注工具，竟然还有人不知道…

与常见的标注工具不同，LabelU提供了非常灵活、丰富和可自定义组合的标签工具，就像是一套为AI研究员量身打造的“积木”，每一位用户都能。

2024-08-24 08:00:00 1758

原创江湖救急：MinerU安装宝典，AI侠客必备

江湖传言，有一款名为MinerU的神器，能将繁复的PDF秘籍转化为易懂的AI“心法”。）众多侠客摩拳擦掌，势必掌握这项能力。然而，第一步安装成了不少人的最大难关。正当众侠客困惑之际，一位老侠客悠然开口：“少侠莫慌，虽MinerU威力无穷，然其安装之术，亦有章可依。”他轻轻翻开崭新的，以轻松的姿态，一一化解了这些难题。让我们跟随这位老侠客的指引，一起驾驭这款神器吧。

2024-08-23 14:11:08 4628

原创登顶GitHub Trending，开源工具MinerU助力复杂PDF高效解析提取

同时支持从包含广告等各种干扰信息或者复杂格式的网页、电子书中快速解析、抽取正式内容，有效提高AI语料准备效率，助力各行业利用大模型、RAG等技术，结合学术文献、财务报告、法律文件、电子书籍等专业文档，打造垂直领域的新知识引擎。紧接着，利用高质量PDF模型解析工具链进一步对PDF文档进行Layout区块布局检测，准确定位标题、正文、图片、表格、脚注、边注等重要元素位置，与此同时，结合公式检测模型定位公式区域。MinerU支持不同类型的PDF文档提取，包括文本型PDF、图层型PDF、扫描版PDF；

2024-08-23 13:49:54 1504

原创 WAIC上官宣！大模型语料提取工具MinerU正式发布，开源免费“敲”好用

7月4日，2024 WAIC科学前沿全体会议在上海世博中心红厅隆重举行。上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.5（InternLM2.5），同时全链条工具体系迎来重磅升级，对于，不仅能将混合了图片、表格、公式等在内的复杂多模态 PDF 文档精准转化为清晰、易于分析的 Markdown 格式，还能从包含广告等各种干扰信息的网页中快速解析、抽取正式内容，极大提高AI语料准备效率。快来一起看看！

2024-07-05 19:14:24 5098 2

原创 ModelScope联手OpenDataLab：直接调用7000+开源数据集，赋能AI模型加速研发

LAMM数据集是上海人工智能实验室开源的一个多模态数据集，包括一个包含 186,098 个图像语言指令-响应对的图像指令调整数据集和一个包含 10,262 个点云语言指令-响应对的点云指令调整数据集。该数据集从公开可用的数据集中收集图像和点云，并使用 GPT API 和自我指导方法根据这些数据集中的原始标签生成指令和响应。该数据有以下特性：● 添加了更多视觉信息，例如视觉关系和细粒度类别作为 GPT API 的输入● 观察到现有的 MLLM 可能难以理解视觉任务指令。

2024-06-21 14:06:27 1378

原创百万总奖池 | 浦源大模型挑战赛（夏季赛）·安全可信赛道正式启动！

百万总奖池，等你来挑战！

2024-06-03 20:08:31 717

原创高质量新闻数据集OpenNewsArchive：880万篇主流新闻报道，国产大模型开源数据又添猛料

在构建国产大语言模型的道路上，高质量新闻是不可或缺的重要语料之一。这类语料集。

2024-05-15 17:43:07 7248 4

原创有点意思！腾讯 ARC Lab 最新发布的MiraData数据集，用于长视频生成，从这些方面做了clip分层描述……

最近小编网上冲浪时，被腾讯 PCG ARC Lab 新开源的文本-视频数据集——吸引了目光

2024-04-15 12:00:02 1498

原创小小视频-文本标注，LabelU轻松拿下！

最近因为 Sora 模型大火，带动了文生视频任务研究。有小伙伴“吭哧吭哧”上手后，到人工精标数据时迷茫了，不知道选什么视频-文本标注工具为好。小编听了也急的发愁，远在天边，近在眼前，这么好用的视频标注工具——就在网站明晃晃地挂着，可恶，竟然没人知道？！今天可得给你好好说道说道

2024-04-08 19:13:21 1512 2

原创百里挑一“萃取”数据精华，上海AI实验室开源发布高质量语料“万卷2.0”（万卷CC）

为应对大模型发展对高质量、大规模、安全可信语料数据资源的需求，保障大模型科研攻关及相关产业生态发展，大模型语料数据联盟于2023年7月6日世界人工智能大会开幕式上宣布成立，旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构，联合打造多知识、多模态、标准化的高质量语料数据，探索形成基于贡献、可持续运行的激励机制，打造国际化、开放型的大模型语料数据生态圈。、Redpajama和Refineweb数据集进行了10万条数据的抽样，从毒性、侮辱、恐吓等7个维度进行评分，以验证各数据集的信息安全性。

2024-03-08 14:11:52 1371 6

原创首场“解数Talk” 直播来了——大模型语料数据联盟开源数据集解读

为帮助广大开发者更好地了解大模型语料数据联盟发布的AI大模型语料数据，沟通大模型企业在AI视角下的数据需求，不断服务大模型产业生态和落地应用，联盟发起单位上海人工智能实验室联合成员单位共同打造。的专家，为大家深度解读一下已开源发布的两个高质量数据集“蜜巢·花粉1.0”和“国际仲裁法律、规则与实践数据集”。联盟旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构，共同推动高水平语料数据要素建设。目前，联盟已开展“寻数计划”、联盟开放日等活动，同成员单位一起在大模型语料数据领域深度开展交流合作。

2023-12-13 12:53:43 314

原创 Open X-Embodiment 超大规模开源真实机器人数据集分享

近期，Google旗下的前沿人工智能企业DeepMind汇集了来自 22 种不同机器人类型的数据，创建了 Open X-Embodiment 数据集并开源了出来。该数据集让他们研发的RT-2 机器人在制造和编程方式上有了重大飞跃。有分析称，在上述数据集上训练的 RT-2-X 在现实世界机器人技能上的表现提高了 2 倍，而且通过学习新数据RT-2-X 掌握了很多新技能。英伟达高级人工智能科学家Jim Fan甚至公开表示，这个数据集可能是机器人的ImageNet时刻。

2023-11-14 15:15:56 6152

原创收藏丨20个医疗场景经典、热门数据集资源汇总

医学分割十项全能是医学图像分割数据集的集合。它总共包含 2,633 张三维图像，这些图像是从多个感兴趣的解剖结构、多种模式和多个来源收集的。具体来说，它包含以下身体器官或部位的数据：大脑、心脏、肝脏、海马体、前列腺、肺、胰腺、肝血管、脾脏和结肠。

2023-11-06 17:28:59 4307

原创寻找最闪亮的 OpenDataLab 数据之星， We want you !

我们诚挚地向您发出邀请，你可以是技术极客，也可以是高校师生，或者AI从业者......只要你对开源感兴趣，愿意贡献你的 AI 数据集或者邀请创作者分享、开源数据集，都可以报名！平台也将帮助原创优质数据集创作者在OpenDataLab上快速成长，获取更多推广资源及科研支持。浩瀚如烟的数据“海洋”里，还有许多制作精良、独具特色、影响深远的 AI 开源数据集，像沧海遗珠般很少被人知晓、挖掘、使用。活动详情见下方，联系博主报名，活动截止 2023.12.31，欢迎大家积极分享~

2023-10-31 15:50:24 905

原创 VIGC：自问自答，高质量视觉指令微调数据获取新思路

VIGC提出了一种新的多模态指令数据构造方式，可以基于无标注的图像自动生成多样性的高质量数据，且基于生成数据可以进一步提升当前模型的性能，可以作为指令数据获取及模型性能提升的新思路。

2023-09-14 19:11:45 346

原创中国大模型语料数据联盟迎来9家新成员，开源第二批语料数据

为提升语料数据供给水平，推动大模型产业高质量发展加速应用创新与行业落地，9月8日，由中国大模型语料数据联盟（以下简称“语料数据联盟”）主办的数说新语·开放日首场活动在上海人工智能实验室举行。

2023-09-11 15:45:45 451

原创终于来啦！OpenDataLab 新增自主上传功能，升级CLI/SDK工具、数据集详情页……体验赠好礼~

创作有好礼

2023-09-05 15:09:11 665

原创《多模态语料库 “书生·万卷” 1.0 详细解读 | 附下载地址》

OpenDataLab 联合大模型语料数据联盟构建了“书生·万卷”数据集，旨在为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料

2023-08-23 19:50:58 1606

原创收藏|43个自动驾驶经典、热门数据集资源汇总

当今社会，自动驾驶技术已成为汽车产业的未来趋势。但是，要想让自动驾驶车辆真正上路行驶，离不开大规模的高质量数据集的支撑。本文将为您介绍43个经典、热门的自动驾驶数据集，希望对您在选择适合的数据集时有所帮助。

2023-06-19 17:46:28 6833 1

原创基于PySpark的10亿级数据集LAION-5B元数据快速处理实践（全文分享）

多模态大模型训练如火如荼展开，但以LAION-5B为代表的大规模多模态数据集获取却成了一个令人头疼的问题。OpenDataLab两位工程师在浦数 AI Talk做了非常实用的LAION-5B下载经验分享，我们整理了其，希望能对大家下载同类数据集提供帮助和参考。

2023-06-06 18:48:54 2062

原创行业前瞻｜Segment Anything 都发布了，耗时、耗力的人工数据标注还有意义吗？附SA-1B（Segment Anything ）数据集国内免费高速下载资源

图像分割（Image是图像处理中的一种技术，也是计算机视觉领域核心任务之一。它是预测图像中每一个像素所属的类别或者物体，输出不同类别的像素级掩码。简单来说，就是将图像中的每个像素标注为属于哪一个对象，比如人、车、树等等，并精细地标注出每个物体的具体位置和形状。大体上，图像分割可以分为三个子任务:实例分割 (instance segmentation)语义分割 (semantic segmentation)全景分割 (panoptic segmentation)，这三个子任务都有着大量的算法与模型。

2023-05-09 21:14:02 1963 5

空空如也

空空如也