智源研究院官方账号-CSDN博客

原创智源开源 Reason-RFT：用强化学习重塑视觉推理，突破 VLM 泛化瓶颈

RoboBrain 是智源研究院推出的面向真实物理环境的“通用具身大脑”系统，集感知、推理与规划于一体，构建了从大脑认知到小脑控制的完整技术体系，包括具身大脑基座模型RoboBrain 2.0、面向3D轨迹生成的RoboBrain-SpatialTrace、用于强化学习稠密奖励生成的RoboBrain-Dopamine、通用小脑VLA模型RoboBrain-X0 Pro，以及灵巧手基座模型RoboBrain-Dex。这表明模型真正学到的是“如何推理与规划”，而非“如何应对某一类固定模板的题目”。

2025-12-12 20:23:14 353

原创北大、智源联合国际顶尖机构发布全球首个AI 欺骗系统性报告，敲响前沿系统安全警钟

顶级专家阵容，全景式拆解AI欺骗机制与防御体系。

2025-12-06 16:05:51 840

原创从长视频中探寻世界模型新范式：Emu3.5 的 Next-State Prediction 之路

我们使用 Whisper-large-v2 对每条视频做自动语音识别，获取逐词时间戳的文本，并通过 spaCy 进行停顿切分与句法整理，使视频语言更自然、结构化。长视频蕴含的是更深层次的世界规律，是时空延展的多模态经验（long-horizon multimodal experiences）。这些挑战，本质上也是未来方向：更大规模数据、更先进模型结构、更系统评估方法、更高效 tokenizer，将推动世界模型迈向下一阶段。语言的加入大幅提升了长视频的语义密度，让模型更容易理解场景、意图与行为。

2025-11-29 20:29:50 680

转载智源发布具身数据创新基座，携手行业共筑物理AGI基础设施

智源研究院具身数据负责人姚国才表示，该数据集之所以取名为RoboCOIN，是寓意每一份高质量数据都如同一枚闪闪发光的“金币”，然而一枚金币的面值是微小的，需要大家都往“存钱罐”里投入更多“金币”，若全行业能够齐心协力，就有希望积少成多，换取到一张通向物理AGI的船票。等8家企业，以及清华大学、北京大学、中国人民大学、北京邮电大学、电子科技大学、斯坦福、伯克利和剑桥大学等高校，合作建立了一个全球“本体数最多、标注最精细、使用最便捷”的高质量双臂机器人真机数据集RoboCOIN。现状是数据相互隔离。

2025-11-25 14:14:33 47

原创具身开放日点燃生态引擎，智源以开源开放驱动具身智能创新

感受新一代青年科研工作者的活力、热情与担当

2025-11-21 18:06:07 687

原创思维链的陷阱：智源FlagEval评测揭示推理模型真实能力与安全隐患

揭示推理模型的“表”和“里”

2025-11-11 15:18:48 935

转载智源具身框架Thor开源：迈向类人级全身控制，让机器人在强对抗中“站稳脚跟”

例如，在双手向后拉动任务中，Thor 实现了 167.7 N 的峰值拉力（约为机器人自重的 48%），相较于表现最佳的基线算法，性能提升了 68.9%。我们将持续开放最新进展，期待与全球科研机构及产业伙伴携手，在工业、服务业、特种作业等更广泛的场景中，共同推动具身智能的演进与落地，让机器人真正走进物理世界，成为人类的可靠伙伴与得力助手。，结合生物力学控制原理与创新的网络结构，让人形机器人在高强度力交互任务中，实现媲美人类的全身协同与动态稳定能力，显著提升其在真实、复杂环境中的作业潜力。

2025-11-07 11:55:21 52

转载智源悟界·Emu3.5：开启多模态世界大模型新纪元

DiDA 将传统的串行逐 token 生成过程，转变为一个多步并行的预测过程，在不牺牲性能的前提下，将每张图片的推理速度提升了近 20 倍，首次使自回归模型的生成效率媲美顶尖的闭源扩散模型。作为悟界·Emu 系列的最新成员，Emu3.5 延续了将图像、文本和视频等多模态数据统一建模的核心思想，并实现了从“下一Token 预测”（Next-Token Prediction）到“下一状态预测”（Next-State Prediction）的能力跃迁，通过海量视频等多模态数据，让模型自发学习世界演变的内在规律。

2025-10-31 14:11:21 76

原创单图高精度6D位姿估计方法开源，让机器人“一眼看懂”陌生物体

为此，团队设计了一套粗到精的联合迭代优化策略，将尺度恢复融入端到端位姿估计流程，先快速初始化位姿（粗对齐），再通过迭代优化最终达到毫米级精度（精对齐）。当先验信息缺失（如无CAD模型、无多视角数据）时，系统不再被动等待理想输入，而是主动“生成-对齐”，利用生成式 AI 补全物体的完整3D结构，并通过几何与尺度的联合优化，将其精准锚定在真实空间中。实验过程：左列为锚点图像，中列为生成的 3D 模型，右列为机器人抓取时的位姿估计结果，可见生成的模型与真实物体纹理、结构高度一致，估计的位姿能精准指导机械臂抓取。

2025-10-28 10:35:47 609 1

转载智源开源EditScore：为图像编辑解锁在线强化学习的无限可能

北京智源人工智能研究院 VectorSpace Lab 团队近日发布了全新的高保真奖励模型系列——EditScore，旨在为指令引导的图像编辑任务提供精确、可靠的奖励信号，从而为强化学习在 AIGC 领域的深入应用铺平道路，真正解锁其强大潜力。

2025-10-22 14:33:51 26

原创众智FlagOS的统一通信库实现国家与国际标准“双立项”

国内国际标准双驱动，助力构建开放共融的AI系统生态

2025-10-21 10:43:30 752

原创【无标题】

在智源研究院，我们不仅努力构建解决当下问题的 AI 工具，更致力于探索生物智能与人工智能演化的深层原理。我们相信，复杂系统的涌现离不开功能表现与物理结构的相互作用，我们的科研布局也始终围绕“功能”（Functionality）与“结构”（Structure）两大核心维度展开。在这一理念的指引下，智源研究院生命模拟中心将“数字孪生心脏”作为一个长期投入的核心方向，围绕“如何用数字化的方式精准还原和模拟每一颗独特的心脏”持续探索，希望为个性化诊疗、风险预测和科学研究提供坚实的支撑。

2025-10-14 18:07:37 808

原创智源 RoboBrain-X0 开源，打破机器人跨本体泛化困境

RoboBrain-X0 的设计理念正是如此：模型首先将复杂任务（如“整理桌面”）分解为与具体机器人“身体”解耦的通用语义动作序列，并通过统一映射机制，将“意图”高效转译为多种机器人可直接执行的动作。该模型具备零样本泛化能力，完成简单的 pick&place 任务，同时只需在目标任务上进行少量样本微调，即可展现出强大的跨本体适配性，进行复杂任务的拆解和执行。现实世界充满了多样性与不确定。不同的机器人拥有不同的“身体”（单臂、双臂、轮式、人形），工作在不同的环境（家庭、工厂、办公室），面对形态各异的物体。

2025-09-30 16:22:57 853

原创从云端到终端，从大模型到机器人：智源众智FlagOS 1.5引领开放计算生态迈向成熟

9月26-27日，在北京举办的首届FlagOS开放计算开发者大会上，北京智源人工智能研究院（简称“智源研究院”）携手18个共创团队、超过60个全球生态合作伙伴，正式发布开源大模型智算基座“众智FlagOS 1.5”，已经支持了16家厂商超过20多款芯片，作为一个面向多种AI芯片的统一开源系统软件栈，众智FlagOS 1.5的发布标志着全球人工智能底层技术生态正迈向一个以“开放计算”为核心理念的协同创新新纪元。众智 FlagOS v1.5 发布。

2025-09-28 16:12:57 1180

原创众智FlagOS 1.5发布：统一开源大模型系统软件栈，更全面、AI赋能更高效

在AI芯片百花齐放的态势下，不同的硬件架构形成了独立的生态“烟囱”，模型在不同算力间的迁移与适配成本高昂，这不仅制约了技术创新的速度，也阻碍了AI普惠的进程。我们深知，构建一个真正通用、高效的AI系统生态，仅依靠任何单一机构的力量远远不够，需要开放的标准、透明的协作以及全球社区的共同智慧。：针对大规模集群中至关重要的通信环节，通过深度优化Pipeline，新版FlagCX的通信效率实现了最高2.5倍的增长，并率先支持了跨芯片的异构混合训练。我们发布的不是一个封闭的成品，而是一个持续演进的、开放的起点。

2025-09-26 16:26:41 958

转载具身智能从此「边听边说」，智源研究院开源原生全双工语音大模型RoboBrain-Audio

【转载自：机器之心】语音交互作为人机通信的关键接口，长期以来受限于高延迟、低自然度的交替式对话架构。为突破这一瓶颈，北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学，正式发布 RoboBrain-Audio（FLM-Audio） —— 首个支持 “自然独白 + 双训练范式” 的原生全双工语音对话大模型。在一段自然对话音频中，用户连续提出多个不同问题，并多次在模型回答过程中打断。

2025-09-25 15:43:26 125

原创智源发布具身智能能力基座，共筑全球具身新生态

智源具身智能数据平台现已面向全球开放免费试用申请，招募生态合作伙伴

2025-09-19 14:31:33 848

原创 2025智源学者资助计划启动

诚邀学术精英、产业生态伙伴同行，携手加速人工智能原始创新

2025-09-19 14:29:13 86

原创智源研究院黄铁军：2015、2030、2045，AI促进可持续发展

智能、环境与人类三者的动态再平衡

2025-09-17 21:02:50 676

原创具身智能助力医疗普惠，智源清华联合研发全自主颈动脉超声机器人登刊 Nature Communications

智源清华联合研发，通过数据驱动的AI路径，实现专家级颈动脉超声扫查

2025-09-09 18:52:38 959

原创具身智能评估新思路：智源评测FlagEval基于2025世界人形机器人运动会足球赛的初步探索

我们首次在大型机器人赛事中引入系统化的过程性数据分析，并对48场比赛的全量数据进行采集与分析，重点关注对抗环境下机器人的稳定性与协作情况，希望可以初步探索挖掘机器人性能的核心指标与潜在短板的方法，分析具身智能模型和算法的优劣，为行业提供可操作的技术洞察与方法参考。，整体呈现出更具进攻性的风格，更倾向于进行高频次射门尝试。基于此，选择机器人足球赛作为研究与评估的切入点，超越单纯的胜负结果，将比赛过程中的关键行为转化为系统化的评价维度，有助于揭示当前具身智能技术的优势与不足，为发展指明更具实践意义的方向。

2025-08-29 13:06:26 958

原创首届AI国际人才峰会启幕，智源携手港投公司共筑青年创新生态

他指出，该模式的核心在于：一是对技术趋势的深刻预判，2021年智源发布“悟道”系列大模型，预见大模型将成为“智能时代的基础设施”；黄铁军表示，人工智能像互联网一样，是全球化的体系，其研发、产业和应用都是全球性的，此次合作将智源人工智能技术内核与香港国际枢纽地位结合，以人才为核心，助力香港成为智能时代的龙头。展望未来，智源研究院将继续发挥自身在人工智能领域技术优势，与各方合作伙伴一起，以人才为创新生态核心，携手推动人工智能的前沿探索与产业融合，共建智能时代商业新生态，共创人类、环境和智能可持续发展的未来。

2025-08-28 10:16:44 488

原创中科大携手智源发布 BGE-Reasoner：引领推理式信息检索新高度

结合合成数据与强化学习的推理检索新框架

2025-08-27 16:39:35 1026

原创智源研究院发布数据魔方，以智能化自定义方式重构模型训练数据供给范式

数据魔方”首次以全新的“多、快、好、省”的方式为用户提供高质量自定义开源数据集（多模态数据），旨在以技术创新打通数据供给与应用个性化需求之间的壁垒，为AI模型训练提供高效、精准、低成本的全新数据解决方案。与此同时，模型训练正从通用领域加速向垂直领域发展，这意味着模型对训练数据的需求呈现出垂直化、精细化、个性化的趋势。然而，在实际操作中，传统模型训练仍依赖人工检索多个数据集，随后进行下载、汇总、筛选、过滤、去重、质检等一系列繁琐流程，不仅耗时费力，也严重制约了模型开发效率。

2025-07-29 17:29:56 742

原创国际标准组织共聚，智源推动全球AI开源与国际标准双轮驱动人工智能普惠化发展

7 月 26 日，人工智能标准化国际合作论坛在上海召开。

2025-07-29 17:29:17 1038

原创 FlagRelease上线：自动迁移发布大模型多芯高效版本，用户下载即用

模型开源并不意味着模型可用，绝大多数的开源模型仅适配某单一闭源芯片硬件生态，不同芯片的适配方案无法互通，生态高度分裂，适配各种AI硬件需要投入大量人力，效率低下。此外，每个模型的更新都需要重新适配，维护成本高企。为了让开源大模型人人可用、多种硬件可运行，降低人工智能计算的门槛，智源研究院研发了面向多种AI芯片的大模型自动迁移、多芯片发版平台 FlagRelease。依托统一、开源的AI系统软件栈FlagOS提供的跨芯适配能力，FlagRelease 打造了一套将大模型并的标准流程。

2025-07-22 14:27:40 712

原创智源全面开源RoboBrain 2.0与RoboOS 2.0：刷新10项评测基准，多机协作加速群体智能

RoboBrain 2.0以卓越的多模态感知、精细的空间推理及强大的长时规划能力，赋能机器人在具身环境中进行交互推理、多智能体协作及高效任务规划，助力复杂物理场景的智能感知与决策。通过这一阶段的训练，模型能够生成推理链，支持复杂任务的逐步推理和决策，从而在具身情境中实现更高效、更准确的推理和规划能力。：整合标准视觉问答、区域级查询、OCR视觉问答及多轮视觉对话，优化语言表达的多样性与语义一致性，通过丰富的视觉-语言交互数据，提升模型对复杂任务的理解与响应能力，适应从简单问答到多轮对话的多样场景。

2025-07-14 12:52:48 941

原创智源研究院26届“智星”科技人才计划正式启动

投递链接：https://app.mokahr.com/campus-recruitment/baai/42174#/

2025-07-07 15:45:06 375

原创 OmniGen2重磅升级，统一图像生成再进化

随后，随着 Gemini 2.0 Flash 和 GPT-4o 等闭源多模态模型的相继发布，构建统一图像生成模型成为当前最受关注的研究与应用方向之一。同时，先前的基准使用CLIP-I和DINO指标来评估上下文生成的图像的质量。然而，对于图片上下文参考生成（in-context generation)任务，目前还缺乏完善的公共基准来系统地评估和比较不同模型的关键能力。反思数据由文本和图像的交错序列组成，首先是一个用户指令，接着是多模态模型生成的图像，然后是针对之前生成输出的逐步反思。

2025-07-03 14:32:25 807

原创智源-人大高瓴26级联培博士预推免报名开始啦~欢迎感兴趣的同学咨询报名

智源-人大高瓴26级联培博士预推免报名开始啦~欢迎感兴趣的同学咨询报名！

2025-07-02 11:19:53 228

原创跨芯片 AI 算子库 FlagGems 正式加入PyTorch 基金会生态项目体系

2025年北京智源大会 · PyTorch Day China 论坛上，PyTorch 基金会执行董事 Matt White 宣布高性能通用 AI 算子库 FlagGems 项目获得批准，正式加入 PyTorch 生态项目体系。Pytorch基金会于6月26日在推特上进行了官方宣布。作为唯一支持多种AI芯片架构的算子库，FlagGems 的加入加速了 PyTorch 实现“的技术创新。

2025-06-27 17:47:18 1141

原创 DrugCLIP：AI驱动超高通量虚拟筛选引擎，开启后AlphaFold时代创新药物发现新篇章

构建人类蛋白组筛选数据库，推动后 AlphaFold 时代药物发现新范式依托 DrugCLIP，团队首次完成了人类基因组规模的虚拟筛选项目，覆盖约 1 万个蛋白靶点、2 万个结合口袋，分析超过 5 亿个小分子，富集出 200 万余个高潜力活性分子，构建了目前已知最大规模的蛋白-配体筛选数据库。依托该平台，团队打通了从 AlphaFold 结构预测到药物发现的关键通道，首次完成了覆盖人类基因组规模的药物虚拟筛选，为后 AlphaFold 时代的创新药物发现带来了新的可能性。

2025-06-16 13:21:39 673

原创 2025北京智源大会闭幕|黄铁军：构建物理智能体，具身智能目标是星辰大海

此外，大会现场搭建了智源AI科研成果互动体验展台，集中呈现了具身智能、脑科学、数字心脏等前沿科研成果的应用场景，吸引大量参会者驻足体验、深度互动，现场气氛热烈。现场炫技，还有Physical Intelligence联合创始人兼CEO Karol Hausman与宇树科技创始人王兴兴，银河通用创始人兼CTO、北京大学助理教授、智源具身智能研究中心主任王鹤，穹彻智能联合创始人、上海交通大学教授卢策吾，北京人形机器人创新中心总经理熊友军、智源研究院院长王仲远隔空共话具身智能的现状与未来。我们的使命伟大而光荣！

2025-06-08 11:18:11 887

原创 2025北京智源大会开幕|智源发布“悟界”系列大模型，解码物理世界交互新范式

2025年6月6日，第七届“北京智源大会”在中关村展示中心开幕。北京智源大会是智源研究院主办的“AI内行学术盛会”，以“全球视野、思想碰撞、前沿引领”为特色，汇聚海内外研究者分享研究成果、探寻前沿知识、交流实践经验。2025北京智源大会邀请到了图灵奖得主、深度学习代表人物Yoshua Bengio，图灵奖得主、强化学习之父Richard S. Sutton，图灵奖得主Joseph Sifakis、姚期智，Google、DeepMind、Meta、Mila、Physical Intelligence、MIT、

2025-06-06 14:21:37 950

原创重磅！2025智源大会完整日程公布——全球AI先锋全阵容集结

2025年6月6日-7日，将以线上+线下联动的形式召开，4位图灵奖获得者演讲，30余位AI企业创始人&CEO分享，100余位全球青年科学家报告，两天会议将密集开展180余场人工智能主题演讲，在思辨与实证的交织中，为 AI 的未来绘制航图。报名通道已开启。

2025-06-05 11:36:28 1058

原创更强劲，更高效：智源研究院开源轻量级超长视频理解模型Video-XL-2

图1：Video-XL-2的模型架构示意图视觉编码器（Visual Encoder）动态 Token 合成模块以及大语言模型（LLM）。具体而言，Video-XL-2 采用 SigLIP-SO400M 作为视觉编码器，对输入视频进行逐帧处理，将每一帧编码为高维视觉特征。随后，DTS 模块对这些视觉特征进行融合压缩，并建模其时序关系，以提取更具语义的动态信息。处理后的视觉表征通过平均池化与多层感知机（MLP）进一步映射到文本嵌入空间，实现模态对齐。

2025-06-03 10:47:23 992

原创 FlagOS 新里程：开源面向多种硬件架构的统一AI 编译器 FlagTree

统一 AI 编译器 FlagTree 的发展，离不开社区生态参与机构的合作共建，为了推动 FlagTree 的开源合作和技术发展，FlagOS 生态社区为 FlagTree 开源社区成立了开源治理委员会、技术指导委员会、项目管理委员会、社区秘书处等多个组织，对 FlagTree 的发展形成强有力的保障。到目前为止，已经有十多家机构加入 FlagTree 开源社区，并按计划、有节奏地召开技术委员会会议，为 FlagTree 新版本的发布、后续版本的技术方案和研发路线进行重要的探讨。

2025-05-27 16:23:35 1315

原创四位图灵奖掌舵 2025智源大会揭示AI进化新路径

大会云集来自 MIT、斯坦福、清华、北大等 20 + 海内外顶尖科研院所的科学家们，他们将与DeepMind、Linux、华为、阿里、腾讯、百度等国内外AI领军企业的行业专家一道，共同探讨人工智能的前沿趋势与未来走向。与此同时，推理大模型的兴起、开源生态的加速、具身智能的百花齐放，成为2025年AI发展的关键词。当深度学习与强化学习交汇共振，当世界顶尖学者与产业领袖思想激荡，当前沿理论直面现实挑战——2025智源大会，将与全球AI同行共同把握技术跃迁的时代脉搏，洞见智能未来的无限可能。

2025-05-23 11:28:54 709

原创 BGE系列再升级：代码检索及多模态向量模型刷新多项领域基准

检索增强技术在代码及多模态场景中的发挥着重要作用，而向量模型是检索增强体系中的重要组成部分。针对这一需求，近日，智源研究院联合多所高校研发了三款向量模型，包括代码向量模型BGE-Code-v1，多模态向量模型BGE-VL-v1.5以及视觉化文档向量模型BGE-VL-Screenshot。这些模型取得了代码及多模态检索的最佳效果，并以较大优势登顶CoIR、Code-RAG、MMEB、MVRB等领域内主要测试基准。

2025-05-20 14:18:20 1323

原创智源联合南开大学开源Chinese-LiPS中文多模态语音识别数据集

而幻灯片信息对于降低替换错误成效显著，幻灯片中所包含的丰富的语义和上下文信息，在面对专业词汇、地名等具有特定领域属性的词汇识别时，能够为模型提供关键的识别线索，从而大幅提高识别的准确性。作为首个“唇读信息+幻灯片语义信息”结合的中文多模态语音识别数据集，Chinese-LiPS数据集面向中文讲解、科普、教学、知识传播等复杂语境，致力于推动中文多模态语音识别技术的发展。评测结果显示，多模态信息融合能够显著提升语音识别系统的性能，为语音识别技术的发展提供了新的思路与方向。Chinese-LiPS评测实验结果。

2025-05-13 10:41:53 993

空空如也

空空如也