AI前沿速递-CSDN博客

原创一步SOTA！何恺明团队iMF实现单步生成FID 1.72，无需蒸馏从零训练

继今年5月提出MeanFlow（MF）后，何恺明团队推出改进版Improved MeanFlow（iMF），其通过重构训练目标为更稳定的瞬时速度损失、引入灵活无分类器指导（CFG）及高效上下文内条件作用，解决了原始MF在训练稳定性、指导灵活性与架构效率上的三大核心问题，在ImageNet 256x256基准测试中，iMF-XL/2模型以1-NFE（单步函数评估）1.72的FID成绩较原始MF提升50%，证实从头训练的单步生成模型可媲美多步扩散模型。

2025-12-04 10:29:41 1202

原创 AAAI2026 Oral 重磅首发！港大 & 自动化所 ARRA，混合令牌 + 对齐损失，LLM 文生图全局一致性实现质的飞跃！

本文提出ARRA（自回归表示对齐）框架，通过引入全局视觉对齐损失与混合令牌，在不修改LLM架构的前提下，解决了其文本到图像生成时的全局连贯性不足问题。实验验证，ARRA在医疗（MIMIC-CXR）、自然图像（ImageNet）等领域均有效：降低先进LLM的FID值（如MIMIC-CXR上降25.5%），支持领域适配（医疗场景FID降18.6%），且加速训练收敛，证明“重设计训练目标”是突破跨模态生成瓶颈的有效路径。

2025-12-01 10:50:34 508

原创复旦大学26岁博士生《Nature》正刊发文，破解裸眼3D显示数十年技术瓶颈

马炜杰及其团队的这项研究，不仅为裸眼3D显示技术带来了里程碑式的突破，更展现了交叉学科思维的巨大潜力。EyeReal方案以其低成本、高性能和优越的用户体验，为数字娱乐、智能教育、工业设计、医疗影像等领域打开了全新的想象空间。正如马炜杰在社交媒体上所分享的：“科研的本质是探索未知，沿途的挑战终将成为人生的独特风景。”从一位对AI充满热情的“跨界者”，到站上世界顶尖科学舞台的青年学者，马炜杰用行动诠释了坚守与热爱的力量。我们期待这项技术能早日走出实验室，重塑我们的视觉世界。

2025-11-28 10:44:18 914

原创自动驾驶生成式革命！AAAI2026 Oral 顶会成果：新国立 & 自动化所 LiDARCrafter，文本秒变 4D LiDAR 序列，高危场景生成让仿真更真实！

本文提出LiDARCrafter这一统一框架，专为可控4D LiDAR序列生成与编辑设计。其通过场景图解析文本指令，结合多分支扩散模型生成目标布局、静态帧，并以自回归策略保证序列时间连贯性，同时构建覆盖场景-目标-序列级的评估基准。在nuScenes数据集上的实验表明，该框架在保真度、连贯性与可控性上全面超越现有方法，不仅能生成高质量LiDAR数据，还可合成安全关键场景，为自动驾驶下游系统评估提供支撑。

2025-11-27 11:29:16 944

原创 Attention is all you need 2.0 来了！Google 新论文 Nested Learning 登陆 NeurIPS 2025，HOPE 模块打破记忆局限！

学习与记忆的明确界定：遵循神经心理学定义，记忆是输入引发的神经更新，学习是获取有效、有用记忆的过程，二者不可等同。关联记忆的数学表述：关联记忆是映射“键（K）”到“值（V）”的算子MK→VM: K \to VMK→VM∗argminML‾MK;V其中L‾⋅;⋅\cdot)L⋅;⋅。

2025-11-26 11:40:50 1674

原创小米放大招！陈龙博士领衔，罗福莉技术加持，全球首个跨域统一模型 MiMo-Embodied，17+12 项任务登顶，开启智能新纪元！

在发布多款自研大模型后，小米具身智能团队发布首篇论文，推出统一具身智能与自动驾驶的新模型MiMo-Embodied。该模型以罗福莉团队此前发布的MiMo-VL为基座持续训练，在17项具身任务和12项自动驾驶任务中表现领先，从工程层面实现了两大分离技术领域的统一建模。这是小米智驾团队首席科学家陈龙博士担任项目负责人、郝孝帅为核心第一作者的团队首个重大成果，此前曾有媒体误解为罗福莉的首个小米成果，当事人已发朋友圈澄清。

2025-11-24 11:10:15 874

原创港科大沈劭劼团队2025研究大盘点：9篇顶刊顶会，铸就“算法-系统”工程闭环

2025年，沈劭劼团队的9篇顶刊顶会成果，清晰勾勒出“从算法创新到系统落地”的完整脉络。五条核心主线层层递进：状态估计与多源融合筑牢“稳”的根基，轻量建图与地图对齐实现“轻”的部署，复杂环境导航保障“实”的应用，场景理解与拓扑推理打通“通”的适配，轨迹预测与决策强化“可解释”的智能。

2025-11-21 11:50:22 967

原创何恺明团队再发布，VARC：ARC竟是视觉问题，60.44%准确率追平人类，打破LLM 垄断抽象推理赛道！

ARC基准由数百个少样本（通常2-4个示例）推理任务构成，每个任务TTT对应独特的变换规则，实现从输入xxx到输出yyy的映射（xxx和yyy均为最大尺寸30×30的2D网格，每个位置含CCC任务基本单元：每个任务含演示集DdemoTxiyii1mDdemoT{(xiyii1mmmm为2-4个演示对，xix_ixi和yiy_iyi均已知）与推理集DinferTxiyii。

2025-11-20 11:51:11 635

原创深度学习本质被看透！何恺明团队2025年以“简化+结构沟“为核心，五大方向突破，推动AI从工程优化到理论可解释

2025年，何恺明团队以“简化、结构、泛化、物理性、重构”为关键词，完成了一场对深度学习核心范式的系统性反思与重塑。在生成领域，团队通过去除噪声条件、引入分形结构、设计单步流场等创新，剥离冗余组件，揭示了生成建模的本质机制；在表征学习中，以“解构退化”的反向思维，证明了简洁架构的强大潜力；在物理推理方向，融合经典力学与神经算子，实现了可解释、多任务的物理建模；在理论层面，重审数据集偏差问题，为行业发展提供了理性视角。

2025-11-17 14:02:32 990

原创审稿人：怎么不用交叉注意力做特征融合？

交叉注意力机制为特征融合提供了新的思路，突破了传统拼接或相加方式的局限，能够动态捕捉特征间的关联性，在EEG情绪识别与图像-文本匹配等任务中展现出强大潜力。对于研究者而言，交叉注意力+特征融合的组合不仅提升了模型性能，还为多模态学习、信号处理、语义建模等方向提供了丰富的创新空间。未来，随着注意力机制的持续演进，其在更多任务中的应用值得期待。阅读原文，更多论文代码获取。

2025-11-10 10:35:06 794

原创 Attention杀疯了！空间+通道双剑合璧，连中顶会一区，代码已开源！

通道注意力与空间注意力的结合，为医学图像分割任务带来了显著性能提升。EMCAD通过高效多尺度卷积注意力模块与大核分组注意力门，在极低计算成本下实现了SOTA性能；而MCADS则通过残差线性注意力与Depth-to-Space上采样，在生物标记物分割任务中展现出更强的边界精度与泛化能力。二者均为注意力机制在医学图像分割中的创新应用提供了优秀范例，未来可进一步探索其在3D分割跨模态迁移等更复杂任务中的潜力。点击阅读原文看论文和代码。

2025-11-07 12:01:04 584

原创 ICLR 2026 前瞻 | 邱锡鹏团队再发力：ROBOOMNI让机器人会“察言观色“，主动帮你解决需求！

研究提出“跨模态上下文指令”新范式，让机器人从语音、环境音、视觉多模态中主动推断用户意图，而非等待明确指令；并针对性设计RoboOmni框架，以“感知器-思考器-对话器-执行器”结构实现端到端全模态融合，统一意图识别、交互确认与动作执行。同时构建OmniAction大规模数据集（14万段场景、5000+说话者等）解决数据稀缺问题，仿真与真实实验均证明，RoboOmni在成功率、推理速度、主动协助等方面显著优于文本及ASR类基准模型。

2025-11-06 11:35:55 1178

原创告别 TD MC 两难！Sergey Levine 团队新作：Transitive RL 重构空间几何学习，Bellman 复杂度骤降，RL 长任务终破局！

考虑受控马尔可夫过程MSApMSAp，其中SSS为状态空间，AAA为动作空间，ps′∣saS×A→ΔˉSps′∣saS×A→ΔˉS为转移概率分布。给定无标签数据集DτiiDτii，包含长度一致（简化讨论）的无奖励轨迹；目标是学习目标条件策略πa∣sgS×S→Aπa∣sgS×S→A，最大化目标函数VπsgEτ∼pπτ∣sg∑t0TγtIs。

2025-11-05 11:15:25 760

原创 ACM MM2025 最佳论文 & 最佳学生论文出炉，4711 篇投稿中脱颖而出，3D 理解与具身智能天花板！

ACM国际多媒体会议（，简称ACM MM）是由美国计算机协会（ACM）主办的国际多媒体领域顶级盛会，也是中国计算机学会（CCF）推荐的。该会议始于1993年，每年举办一次。会议专注于多媒体技术领域的最新研究成果、技术创新和行业趋势，涵盖多媒体内容的创建、处理、传输和交互等多个方面，旨在促进学术界和工业界在多媒体技术应用和产品开发方面的交流与合作。2025年的第33届会议于10月27日至31日在爱尔兰都柏林举行，总计收到有效投稿，最终成功录用篇，录用率达26.6%。

2025-11-04 14:46:08 1147

原创斯坦福大学教授李飞飞团队，456页2025年人工智能发展报告总结！

斯坦福大学以人为本人工智能研究院（HAI）于近日发布了第八版《人工智能指数报告》（AI Index Report）。作为全球最具权威性的AI领域年度报告之一，2025年的版本以前所未有的深度和广度，系统性地追踪了人工智能从技术研发、经济影响到全球治理的演进脉络。旨在为决策者、研究者及公众提供一个基于数据的、严谨的AI发展全景视图。

2025-11-03 12:01:19 868

原创 CVPR 2025最佳论文团队再出新作ELIP，性能全面超越CLIP，图像检索新SOTA！牛津、港大、上交联合推出

比只生成一个效果更好。

2025-10-31 11:33:24 585

原创发顶刊有捷径？揭秘“频域+PINN”如何成为顶会期刊“收割机”

频域+PINN的融合为非线性光学建模带来了数据高效、物理一致、噪声鲁棒的新范式。CFD-PINN突破了PINN无法处理卷积型PIDE的限制，适用于飞秒脉冲传播、信号恢复、隐藏参数发现。SRS-Net则构建了统一框架，用一个模型解决SRS正/反/联合问题，在实验级系统中实现快速、精准、可解释的建模与优化。可拓展至其他PIDE系统（如等离子体、生物传播、金融随机过程）可结合KAN、Transformer、MoE结构提升表达力与效率。

2025-10-30 11:52:35 553

原创大模型后训练遗忘困局被破解，斯坦福陈丹琦团队重磅突破！在线数据成RL“学得久、记得牢“的核心密钥

模型与策略表示：语言模型（LM）用策略πθy∣xπθy∣x表示，其中yyy是基于提示xxx生成的响应；目标任务TTT的最优策略记为π∗⋅∣xπ∗⋅∣x。损失函数定义监督微调（SFT）：最小化交叉熵损失，LSFTθ;x∑y−π∗y∣xlogπθy∣x，基于最优策略采样的真实响应y∗y^{*}y∗计算。

2025-10-29 11:06:05 1037

原创联邦学习安全壁垒被攻破！华南理工联手国际名校，为可信联邦学习铺平道路

整体化分析视角：提出方法和FedID [2]，通过多指标自适应融合的策略，识别恶意梯度，相关工作发表至AI顶会顶刊ICCV和TPAMI；局部化分析视角：提出方法Scope [3]，通过对梯度向量中后门维度和良性维度的精确分割，提高恶意梯度异常性进行剔除，相关工作发表至网络安全顶刊TIFS；事后清除视角：提出方法GN [4]和，通过模型神经元分析，识别后门贡献神经元及对其抑制，清除被已经植入模型的后门，相关工作发表至CCF推荐会议和期刊SMC和KBS。点击阅读原文，获取更多相关信息。

2025-10-28 11:50:45 632

原创告别“思而不学”！通义×北大破局之作RL-PLUS，让大模型真正学会思考，突破推理边界！

该问题的核心在于，RLVR本质上是一种在线策略（on-policy）学习，在面对LLM巨大的解空间和稀疏的奖励信号时，模型倾向于利用（Exploitation）和优化已知的推理路径，而难以进行有效的向外探索（Exploration）以发现新知识。激励模型发现新知识。实验证明，该方法不仅在多项推理任务上取得了SOTA性能，更重要的是，它有效解决了“能力边界塌缩”问题，为大型语言模型实现持续的自我进化和能力突破，开辟了一条极具前景的路径。稳定引入数据只是第一步，更重要的是引导模型学习其中的“新知识”。

2025-10-27 11:33:37 711

原创顶刊风向标！Nature最新研究精选：医学图像依旧是2025年的大热门！

方案集成区块链实现去中心化存储与完整性校验，在CT、乳腺摄影等医学图像上测试，平均熵达7.9998，NPCR 99.92%、UACI 33.31%，抗差分和暴力攻击能力强。探究数据集大小、数据增强等因素对记忆的影响，结果显示约37.2%的训练数据被记忆，68.7%的合成样本为患者数据拷贝，且数据增强、减小模型规模可缓解该问题。这些研究覆盖 CT、MRI、皮肤影像等多模态数据，在临床辅助诊断、远程医疗等场景具极高应用价值，既攻克技术瓶颈，又兼顾临床实用性，为医学 AI 的安全落地与规范化发展提供关键支撑。

2025-10-24 10:20:31 991

原创 ICCV 2025最佳学生论文 | 告别反演！FlowEdit开辟图像编辑新范式，用“多路径平均“实现SOTA级结构保持

准备素材：将需要编辑的图像上传至文件夹。配置编辑参数：创建edits.yaml文件，指定输入图像路径、源提示词、目标提示词及目标代码（用于描述源与目标的差异，将体现在输出文件名中），可参考示例文件格式。创建实验配置文件（如自定义），设置n_maxn_min等超参数，并指定edits.yaml的路径，具体参数含义可参考论文。执行编辑：运行命令python run_script.py --exp_yaml <你的实验配置文件路径>，即可生成自定义编辑结果。

2025-10-23 10:49:31 772

原创可解释性为何能屠榜CVPR？多模态融合的“高端局”密码，全靠它

可解释多模态融合已从“锦上添花”变为“刚性需求”。FakeBench告诉我们：用语言解释伪造检测，不仅提升可信度，还暴露模型盲区——CoT 并非万能，需要取证知识注入。EMER则指出：用语言解释情感，不仅获得开放标签，还自然消解模态冲突——先拆解再融合，比一锅端更有效。两篇文章共同给出可复现的流水线大模型预标注 → 2. 人工校验 → 3. 再融合生成解释 → 4. 用语言指标+任务指标双轨评估。把 FakeBench 的 14 维伪影思想迁移到医疗影像、遥感判伪；

2025-10-22 12:16:18 646

原创 DeepSeek-OCR 开源即霸榜，100token 干翻 7000 个，AI “JPEG 时刻” 降临！！

谁能想到，DeepSeek-OCR的模型竟让硅谷集体沸腾？DeepSeek刚开源的DeepSeek-OCR，凭"用视觉压缩一切文本"的颠覆性思路，不仅在GitHub狂揽4K星+、冲上榜HuggingFace热榜第二，更被网友盛赞"开源了谷歌Gemini的核心机密"，堪称AI领域的"JPEG时刻"！DeepSeek的OCR项目由Haoran Wei、Yaofeng Sun、Yukun Li三位研究员共同完成：曾就职于阶跃星辰，在2024年9月发表的论文中，身为论文一作的他所处单位为阶跃。

2025-10-21 11:09:02 2115

原创 ICLR | 思维与行动的协同：ReAct框架如何重塑大模型的问题解决能力

在问答、事实核查、交互式决策等多种任务上，ReAct 均展现出超越单一推理或行动基线的性能，且仅需少量示例即可学习。ReAct 生成的轨迹清晰地展示了模型的“心路历程”，使得人类可以轻松审查其决策依据，判断其结论是源于内部知识还是外部事实，从而大大提高了模型的可信度和可诊断性。通过与外部知识库的互动，ReAct 有效地缓解了 CoT 方法中普遍存在的知识幻觉问题，使其在知识密集型任务中更加可靠。

2025-10-20 10:53:19 634

原创李飞飞团队新世界模型RTFM发布，单H100实时驱动！

由AI教母李飞飞联合创立的World Lab最新研究成果来了——名为RTFM（A Real-Time Frame Model）的生成式世界模型。该模型旨在解决当前世界模型对算力资源的巨大需求问题，通过创新的架构设计，在单张NVIDIA H100 GPU上即可实现实时交互、3D一致性与无限持久性的虚拟世界。李飞飞通过其个人社交媒体宣布，其参与创立的初创公司World Lab正式推出全新模型RTFM。这标志着“世界模型”这一前沿AI领域迎来了新的突破，尤其是在运行效率和可及性方面。

2025-10-17 10:25:22 1182

原创 Transformer杀回目标检测！与YOLO组成王炸组合，高分论文创新点一览

YOLOS 用“最简”序列接口揭示 ViT 的检测迁移极限，适合作为 Transformer 表征学习的硬核基准；HR-YOLO 用“去雾+增强”插件式改造，证明 Transformer 模块可无缝嵌入 YOLO 家族，在恶劣天气下实现精度-效率双杀。换任务——把 [DET] 令牌改成 [SEG]、[POSE] 即可秒变新赛道；换模块——将 DND-Net 换成雨/雪/夜间复原网络，即可冲击不同天气赛道；

2025-10-16 14:25:01 716

原创谢赛宁团队重磅新作带来新方向：宣判VAE“退役“，“RAE”将接棒！！！

尽管"压缩催生智能"是AI领域的经典认知，但VAE的压缩方式并未产生预期效果：其潜空间的信息承载能力与原始3通道像素几乎无异，反而因过度压缩丢失大量细节信息，直接限制了生成图像的精细度。更关键的是，SD-VAE的设计初衷并未将"高质量表征学习"纳入目标，这种先天定位偏差使得基于VAE的扩散模型不仅收敛速度缓慢，最终生成质量也难以突破瓶颈。采用RAE的模型收敛速度比基于SD-VAE的REPA快达16倍——这意味着原本需要数周的训练任务，如今仅需数天即可完成，大幅降低了扩散模型的研发成本和时间周期。

2025-10-15 10:24:44 922

原创 Andrej Karpathy 发布新项目 nanochat：一个从零开始构建的极简全栈式 ChatGPT 克隆

刚刚，Andrej Karpathy 推出了他的最新开源项目 nanochat。与之前聚焦于预训练阶段的 nanoGPT 不同，nanochat 提供了一个从头开始、代码极简的全栈式类 ChatGPT 模型的训练与推理流水线。整个项目被整合在一个依赖极少的单一代码库中，旨在帮助开发者和研究者深入理解大语言模型（LLM）的完整生命周期。根据 Karpathy 的介绍，用户只需启动一台云端GPU服务器并运行一个脚本，最快在4小时后，便能通过一个类似 ChatGPT 的网页界面，与自己亲手训练的语言模型进行交互

2025-10-14 10:13:25 1517

原创 ICLR 2026 | SAM 3的“开窍”时刻：分割一切之后，模型如何学会“思考”？

第三代“分割一切”模型（Segment Anything Model, SAM 3）的研究论文已匿名投稿至ICLR 2026会议并被公开。该论文目前正处于双盲评审阶段。这项工作在SAM系列模型的基础上，实现了从交互式提示到概念理解的关键性跨越。简单来说，SAM 3能够根据用户通过自然语言短语（如“条纹猫”）或图像范例提供的“概念提示”，在图像和视频中分割出所有匹配该概念的物体实例。这一新范式极大地扩展了分割模型的应用边界。值得注意的是，SAM 3在性能和效率上也取得了显著提升。

2025-10-13 14:18:48 578

原创 Attention is Not All You Need：我们堆叠了万亿参数，却失去了“深度”

Recurrence-Complete Frame-based Action Models》这篇论文的真正价值，是促使我们重新审视“深度”的含义。过去，我们习惯用网络层数和参数量来衡量模型的深度与容量。而该研究有力地证明，如果一个模型在时间维度上不具备递归更新状态的能力，其理论表达力将受到结构性的限制。FBAM 架构及其展现出的新型缩放定律，为我们指明了一条通往更长时程、更强交互智能的可能路径。

2025-10-13 10:54:27 879

原创告别暴力计算！清华 InfLLM-V2 用 5B 参数实现 DeepSeek 1T 模型性能

InfLLM-V2 提出了一套硬件感知的优化实现，通过创新的计算核融合技术，显著降低了高带宽内存（HBM）的I/O与计算负载，从而完全释放稀疏注意力的性能潜力。然而，现有的代表性方法（如 NSA 架构）与主流的“短序列预训练-长序列微调”范式存在显著的架构错配问题，不仅引入了过多的额外参数，还导致模型在迁移训练中收敛不稳，并为短序列处理带来不必要的开销。不同于 NSA 引入三套独立键值（KV）投影参数与多个注意力模块的复杂设计，InfLLM-V2 通过无参数的架构调整，直接复用已有的稠密注意力参数。

2025-10-11 10:13:44 975

空空如也

空空如也