自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Paper weekly

PaperWeekly 是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可.

  • 博客(5843)
  • 收藏
  • 关注

原创 把“俄罗斯方块”搬进设计室:物竞天择让振动微型机器人进化得越跑越快

在《灵笼》的世界里,谁更适应环境,谁就活下来——“跑得最快”的物种在废土中率先突围。同济大学物理科学与工程学院/上海自主智能无人系统科学中心任捷教授团队,扮演“女娲”的角色:采用俄罗斯方块作为微型机器人形态编码的基本模块,结合“数字世界设计”与“现实世界反馈”的 AI 算法,进行闭环优化的“功能-形态”进化(如图 1,视频 1)。该闭环系统,从一片随机混沌编码的“弗兰肯斯坦”的肉球中,在 30 轮内演化出了一种新物种形态,最高速度提升到 25.27 mm/s,得到“跑得最快”的“微型机器人”的形态设计。

2025-09-30 14:03:33 430

原创 LoRA到底能否媲美全参?Thinking Machines用实验曲线划出「无悔区」

更重要的是,他们不是停留在理论推演,而是给出了系统化实验、数学直觉和工程配方,首次把 LoRA 的“无悔区”划定清楚。这篇工作主张用统一的 log-loss 标定和系统的 rank×LR×batch 网格,去刻画“LoRA 与 FullFT 的相对效率”,把“玄学经验”变成。反之,当数据规模持续上涨、超出 LoRA 的可承载范围时,并不会突然“卡死”,而是以更慢的样本效率继续学。如果你的训练基础设施/组织流程强绑定在“大 batch 高吞吐”,而难以调小,LoRA 的优化“耐受度”会成为问题。

2025-09-30 14:03:33 687

转载 榜一换人!OCRBench v2九月新榜:揭示多模态大模型文档智能真实水平

其中既有来自谷歌(Gemini 2.5 Pro)、字节跳动(Seed1.6-vision)、OpenAI(GPT-5)的闭源模型,也有来自阿里巴巴(Qwen-VL)、上海人工智能实验室(InternVL)的优秀开源 LMMs,可以看到 LMMs 在 OCR 任务上的表现有着显著进步。而开源阵营中,Qwen3-Omni-30B-A3B-Instruct 分别取得英文榜第二名和中文榜第三名的好成绩,此外,InternVL、Qwen-VL、SAIL-VL、Ovis 等系列国产模型也表现突出,与顶尖模型差距不大。

2025-09-30 14:03:33 23

原创 KDD 2025 | 看不见也能控:用“基混杂向量”打穿分布移位,交通预测稳了

北京航空航天大学联合香港大学提出了基于因果建模的时空基向量表征模型,首次将后门调整原理扩展到连续与未知混杂因子,通过构建基混杂库、自监督任务增强表示,并结合因果解耦机制,实现了在复杂城市场景下更准确、更具泛化性的交通预测。本文在传统时空卷积/图卷积的基础上,引入面向混杂因子的自监督学习与因果解耦机制,构建可应对连续/未知混杂与分布移位的统一交通预测框架。在训练过程中,模型通过对抗解耦机制,使得学习到的表示 H 在不同混杂环境下保持稳定,其语义尽量一致,不再携带环境特定的干扰信息,具体过程如下图。

2025-09-29 14:31:29 822

原创 4B逼近DeepSeek-R1!Bengio团队「递归聚合」刷新小模型上限

这种“低算力环境下的小模型增强”意义非凡:它把过去看似属于大模型的能力,开放给更广泛的应用场景。在部署时,你可以从一个简单的组合开始:种群规模 N 设在十几条,聚合集合 K 不必太大(从 1 到 2 的提升最显著,再往上边际递减),然后把预算更多分配给递归步数 T,让正确片段有时间扩散。论文提出的“聚合感知 RL”已经显示出优势:训练时就让模型见过“多链聚合”的形式,测试时它自然能更稳妥地把分散的片段合并成完整的答案。换句话说,RSA 的故事告诉我们:推理的提升,不仅仅是“更会选”,更在于“更会合”。

2025-09-29 14:31:29 567

原创 NeurIPS 2025 | 我奶奶都能复现?条件表征学习:矩阵一乘,表征立马“对齐”!

与传统的表征学习只得到单一的通用表征不同,本文提出了条件表征学习,通过获取指定准则下的文本基,并将图像表征投影到该文本基张成的空间中,即可得到该准则下表现力更强的条件表征,以更好地适应各种下游任务。要获取图片中除了“大象”、“连衣裙”之外的信息,一个很容易想到的方法就是进行针对性的有监督训练:基于不同的准则比如环境,进行额外的标注,再从头训练或者基于已有表征训练一个额外的线性层。随后,CRL 将由 VLM 得到的通用图片表征,投影到由描述文本张成的空间中,得到该准则下的条件表征。▲ 图4:相似度检索任务。

2025-09-28 13:35:06 524

原创 8GB显卡的逆袭!SSD换显存,3060 Ti硬跑100k长上下文

对不起,先准备一张几十 GB 显存的高端 GPU,再外加一台服务器的预算。结果是,普通人家里那块 8GB 的 3060 Ti,也能硬生生把 Qwen3-80B、Llama3-8B 拉到 50k–100k tokens 的上下文里运行。传统推理引擎,比如 vLLM,会通过分页管理等技巧在显存里“挤出空间”,但它们的本质依旧受制于 GPU 显存容量。oLLm 的核心结构其实不复杂,关键在于一种“插槽化”的思路:当显存不够用时,KV cache 不再死死待在 GPU,而是被下放到 SSD。

2025-09-28 13:35:06 850

原创 128k死穴被击穿!Amazon爆改长上下文:段内压缩快4×,推理不掉点还更准

长上下文一直被认为是 LLM 最难攻克的“死穴”:平方级的计算复杂度带来算力瓶颈,KV 缓存的爆炸增长拖垮部署成本,而注意力的稀释更让模型在长序列中“迷失中间”。在 NarrativeQA、SQuAD、RACE 和 QuAIL 四个数据集上,CompLLM 的表现呈现出鲜明趋势:短上下文时与基线持平,但一旦超过 50k token,模型准确率显著反超,普遍提升 2–3 个百分点。因此,虽然「整块压缩」在论文里看似可行,但在真实的长上下文应用场景里,它更像是一个「治标不治本」的临时方案。

2025-09-26 17:35:33 789

原创 普林斯顿陈丹琦组新作:RLHF难支撑,RLVR有边界?RLMT开辟第三条路

于是我们常常看到模型给出的答案“似是而非”,表面上让人满意,实质上逻辑空洞。对比可见:RLMT 延续了 RLVR 的“先想后答”生成方式,但最终奖励机制不是硬性的对错判据,而是 RLHF 风格的人类偏好模型。如果把 RLHF 看作“人类偏好的镜子”,RLVR 看作“可验证推理的钢尺”,那么 RLMT 就是试图把两者合一:既要模型学会显式地思考,又要它的回答能合乎人类的期待。在方法部分,作者提出过“有效成分假设”:奖励模型的强弱、训练提示分布的质量,以及 warm-start 的来源,可能决定最终性能。

2025-09-26 17:35:33 834

原创 78条打穿1万条!上交大新范式告诉你:智能体训练靠“质”,不是靠“量”

在传统训练里,我们习惯把一条样本看成“问题—答案”的对映关系,模型最终学到的,只是如何在语料的空间里找到一个看似合理的补全。这个结果意味着什么?换句话说:数据量再大,如果每条数据都“信息稀薄”,那堆出来的还是个只会模板化执行的助手,而不是能主动完成工作的“同事”。这个现象并不是“偶然爆冷”,而是一个极其自然的结果:当你喂给模型的是经验而不是答案,它自然会变得更像一个“能干活的人”。尤其是在代码和科研任务里,LIMI 展现出了更强的泛化能力,这说明它学到的并不是环境特化的“技巧”,而是真正可迁移的。

2025-09-25 22:21:15 809

原创 KV缓存不再爆!清华姚期智团队重写注意力维度,长上下文更省更强 | NeurIPS 2025 Spotlight

但 TPA 发现,只要把 RoPE 作用在 K 的 B 因子上,就能保留全部的相对位置信息,并且可以提前缓存。做上下文相关的低秩分解。TPA 没有去死抠平方复杂度的常数,而是直接重写了注意力的基本维度:存因子,不存矩阵,KV 缓存骤降;所以,前人虽然试过“压缩 KV”,但要么算力没省下来,要么 RoPE 处理不优雅,要么工程落地难度大,最后都成了“治标不治本”的临时方案。在多轮对话、RAG 检索、代码助手这些典型场景里,TPA 的因子化缓存只需压缩一次,就能在不同查询间多次复用,直接省下大半算力。

2025-09-25 22:21:15 977

原创 NeurIPS 2025 | 甩掉文本CoT!FSDrive开启时空思维链,自动驾驶迈入视觉推理时代

在核心的轨迹规划任务中,FSDrive 表现出卓越的性能。通过生成包含未来车道线和障碍物位置的“思考图”,FSDrive 能够清晰地预见潜在风险,并提前规划出更安全的规避轨迹,展现了强大的视觉因果推理能力。大量实验证明,FSDrive 通过建立与物理世界更直接的像素级关联,而非依赖抽象的语言符号,正有力地推动自动驾驶技术向更高级、更可靠的视觉智能阶段迈进。我们不禁要问:自动驾驶系统能否摆脱对抽象符号的依赖,像人类驾驶员一样,在决策前于脑海中进行一次直观的、可视化的场景推演,从而做出更精准、更安全的规划?

2025-09-24 23:13:02 327

转载 博士申请 | 加拿大麦吉尔大学智能自动化实验室招收大模型/强化学习方向全奖博士生

目前主要研究算法方向: 强化学习,迁移学习,元学习,大模型优化及应用, 模型预测控制;主要应用领域包括: 智能电网, 智能交通, 智能通讯网络,智能制造等方向。始建于1821年,为加拿大第一所大学,坐落于加拿大魁北克省蒙特利尔, 共培养了14位诺贝尔奖得主、144位罗德学者、8位国家元首、1位图灵奖得主。聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。,请联系我们的栏目负责人(微信:pwbot02)。扫描下方小助手的微信,pick 你心仪的岗位~

2025-09-24 23:13:02 48

原创 RL不再撒胡椒面!港科大 × 清华新作:只盯“规划token”,大模型推理力狂飙

在早期,模型主要在学习执行类技能,比如算术、格式化与符号替代,因而执行 token 的困惑度与熵下降得很快,低层执行能力迅速稳固。这种“雨露均沾”的方式,看似公平,但却存在致命缺陷:执行 token 数量庞大,学习信号被稀释,而真正决定推理成败的规划 token 得不到足够的优化压力。传统的 token-level 熵往往只反映执行层面的不确定性,而真正决定模型能否学会思考的,是策略多样性。首先来看数学推理任务。从文本到多模态,从数学到科学发现,未来的大模型将在更广泛的场景中展现出稳定、可预期的推理飞跃。

2025-09-24 23:13:02 737

原创 KDD 2025 | 从个股偏离到市场共振:UMI挖出股市非理性因子,显著提升预测精度

然而,诸如市场情绪、投机行为、市场操纵和心理偏差等特殊的非理性因素,由于其本身较为抽象,且缺乏明确的标签和数据描述,在现有的深度股票预测模型中尚未得到充分考虑。非另一方面,本文将市场层面的非理性事件定义为市场中所有股票出现异常的同步波动,因为在有效且理性的市场中,不同股票的价格变动通常由各自的基本面因素驱动,广泛而高度的同步波动并不常见。在 UMI 模型中,为了利用股票层面的非理性事件,本文提出了一种具有平稳正则化的协整注意力机制,为每个股票构建了一个估计的理性价格。,用于提升股票收益预测的准确性。

2025-09-23 18:12:16 874

转载 北京内推 | Apple中国招聘机器学习/AI方向研究型实习生

聚焦人工智能领域的招聘平台,涵盖高校硕博招生、博士后招募、企业校招、社招、实习和内推等。目前已有百度、阿里、腾讯、字节跳动等企业发布内推岗位,,请联系我们的栏目负责人(微信:pwbot02)。扫描下方小助手的微信,pick 你心仪的岗位~为了更好地了解和满足大家的需求,我们建立了。最新的招聘信息也不知道?北京市海淀区中关村南大街2号融科资讯中心。如果你也想对公司和在招职位进行更多曝光。,助你先人一步投递,快人一步入职!精选人工智能领域最新鲜的招聘信息。加入 AI 求职社群,你可以享有。

2025-09-23 18:12:16 77

转载 Lumos-1登场!自回归 + 离散扩散合体:让大模型真正“构造”动态世界!

在 VBench-T2V 基准上,自回归离散扩散视频生成模型 Lumos-1 同样表现出色:即使我们没有依赖一个庞大且预训练好的文本编码器,自回归离散扩散视频生成模型 Lumos-1 的性能依然能与 OpenSoraPlan 等依赖强大文本理解能力的先进扩散模型效果相当。否则,生成的视频会出现明显的伪影和闪烁。由于模型在训练的过程中使用了多分辨率的数据,并且 token 序列中编码了分辨率信息,因此,自回归离散扩散视频生成模型 Lumos-1 可以很简单得进行多分辨率得生成,包括横屏和竖屏分辨率。

2025-09-22 14:17:28 76

转载 不要ViT也不要扩散!OneCAT甩掉编码器,统一多模态自回归模型来了

而 EvE 和 VoRA 等方法则通过将 LLM 的中间层特征与预训练的 ViT 进行对齐,以实现视觉知识蒸馏,然而这类方法使用参数量较小(300~500M)的 ViT 作为教师模型去蒸馏参数量更大(3B~7B)的 LLM 时,LLM 的参数空间未能被充分激活,导致蒸馏效率较低。在图像编辑基准 ImgEdit 上,OneCAT-3B 取得了 3.43 的评分,其中在背景替换(Background),风格迁移(Style),属性调节(Adjust)等子项上取得了领先表现。

2025-09-19 22:35:33 79

转载 ICML 2025 | 乱写Prompt更给力?删几个Token,上下文学习立刻“反向觉醒”

提示优化或许也是一样的答案,我们很难说掌握这个黑盒 LLMs 的工作机理,相反,我们应该期待一种类似自然界形成生态位 niche 的过程,给一些奇形怪状的非自然语言提示一些机会,或许会产生更多的意想不到的结果,拥抱更多的开放性 Open-Endedness。实验也证实了我们的猜想,一个随机采样随意构造的 ICL 提示可以通过裁剪删令牌 token 的方式让任务效果猛增,而且在测试的一些任务上几乎能够稳定落到每一个 ICL 提示上,让每个 ICL 提示达到测试的最好效果,甚至让效果进一步增长。

2025-09-19 22:35:33 99

转载 扩散大语言模型也能飞?DPad免训练加速61倍,全局规划照样稳

但 DPad 却带来了意外的惊喜:在多个任务上,尤其是在 LLaDA 系列模型上,它不仅没有降低精度,反而显著提升了模型的准确率,尤其是「严格匹配」(Strict Match)得分。未来,若将 DPad 的思想引入到模型的微调甚至预训练阶段,或许能博采众长,训练出更高效、更强大的下一代扩散大语言模型。DPad 正是基于这一思想,避免让作者(dLLM)在创作每个章节(当前块 Token)时,对所有未来的「草稿纸」(后缀 Token)进行强行填充,从而,才能集中注意力并节省资源(降低算力和存储)。

2025-09-19 22:35:33 77

转载 谁在拖慢你的RL?别怪显卡,错的可能是你的PG-loss

从上图看出,在 guess-number 上,二者差异几乎没有(加不加 ratio 修正),而在 count-number 上,加了 ratio 修正后的训练,在几乎相同的训练时间下,跑了 1kstep,而不加修正的版本只跑了 600step。1. 由于使用更快的推理引擎采样,推理引擎的算子优化等等会导致 rollout-policy 分布和 policy 分布不一致,会导致期望估计的 bias 更大(方差已经很大的情况下,bias 再变大,期望估计结果会变得更差);

2025-09-18 14:23:05 61

转载 少样本不够看?给LLM装上“学习引擎”,上下文学习迈入千样本时代

除了强大且稳健的建模能力,随机森林具有高度透明的决策过程,可分解为清晰的规则路径与特征重要性评估,这种可解释性与 LLM 的思维链(Chain-of-Thought, CoT)推理模式天然契合,有助于后续推进思维链预测及解释性预测任务。在 MMLU 基准测试中,其零样本准确率达 73.2%,50 样本设置下达 75.4%,与基准通用 LLM(Qwen-2.5-7B-Instruct)持平,甚至在特定领域(如统计和物理)有一定提升,这意味着它可以无缝集成到更复杂的对话工作流中。

2025-09-18 14:23:05 43

原创 ICCV 2025 | Gap即力量!挖掘模态间隔潜力,MG-CLIP实现持续学习SOTA

以往的基于 CLIP 的持续学习方法评估往往遵循传统的持续学习评估,只注重在微调数据集上的性能。本研究首次在持续学习场景中系统性地揭示了模态间隔的重要作用,并提出了结合“保持”与“补偿”的双机制方法,在有效抑制遗忘的同时兼顾模型的适应性。将模态间隔视为“特性”而非“缺陷”,通过保持与补偿的双策略,实现了在多项基准上的无重放 SOTA,并成功维护了 CLIP 的零样本能力。如上图实验观测到微调的动态过程中正负样本间隔变化是非对称的,且负样本相似度的下降是模态间隔扩大的关键。

2025-09-18 14:23:05 640

转载 清华新作颠覆CoT!ParaThinker并行思考,终结单链推理天花板

在并行推理的探索道路上,除了 ParaThinker,近年来也涌现出其他值得关注的思路,例如以 Multiverse(https://arxiv.org/abs/2506.09991)为代表的工作,但其主要目标侧重效率:根据原文分析,这些方法的主要目标是加速生成过程,即让模型「做得快」,而不是直接致力于提升最终答案的准确性。为此,团队提出了模型原生的并行化思考方案,训练 LLM 在一次推理中同时生成和综合多个不同的推理路径,从而有效规避「隧道视野」问题,解锁模型潜在的推理能力。

2025-09-17 23:20:00 67

原创 不改参数不重训!CARVE一招纠偏,对比注意力让视觉模型精准聚焦

而 CARVE 证明了通过对比通用查询和任务特定查询所生成的注意力图,就能在像素层面将视觉信号分解为语义信号和视觉噪声分量,为提高视觉语言模型的能力提供了新的思路。值得注意的是,虽然 CARVE 需要三次推理,但前两次推理只需要提取特定层(如 20-25 层)的注意力图,可以在获得所需注意力后提前终止,无需完成全部层的前向传播。早期模型(如 LLaVA 系列)展现出更大的提升幅度,这表明能力有限的模型更容易受视觉复杂度干扰,因此从对比注意力引导的聚焦机制中获益更多。

2025-09-17 23:20:00 537

转载 ICML 2025 | AI福尔摩斯来了!LLaVA-ReID多轮发问,行人重识别一步步锁定

如图 4 和表 1 所示,初始描述的 Recall@1 只有 35.86%(靠模糊描述很难找对人),但经过 5 轮交互后:LLaVA-ReID 的 Recall@1 提升到 73.20%,比最弱的 SimIRV(61.27%)高 12%,比最新的 PlugIR(65.44%)高近 8%。假设回到 20 世纪初的伦敦,福尔摩斯拥有一个交互式的 AI 工具,它将侦探直觉的延伸:基于证人不断演变的描述和从这些线索中评估出的候选嫌疑人,帮助福尔摩斯提出越来越精细和精准的问题。步骤2:将后续描述分解为不同的属性。

2025-09-17 23:20:00 89

原创 EMNLP 2025 | LLM也会“装成人”?对比重写CoPA挑战AI文本检测可信度

为解决这一问题,我们提出了一种对比重写攻击(Contrastive Paraphrase Attack,CoPA),该方法无需额外训练,可利用现成的大模型生成更接近人类风格的文本,从而有效绕过主流检测器。CoPA 构造了一种机器风格的词元分布,作为负对比项,以减轻大语言模型(LLM)的语言偏差,并促进生成更加丰富和多样化的句子。值得注意的是,尽管 Raidar-A 和 CoPA 使用了同一个 LLM 作为改写器,CoPA 仍然远超 Raidar-A,这验证了我们所设计的提示词与对比式改写机制的有效性。

2025-09-15 23:37:16 861

转载 北京/杭州/西雅图内推 | 阿里通义实验室LLM Research团队招聘大模型研究科学家

我们的使命是打造具备通用智能的下一代AI智能机制,让模型真正具备深度推理、规划与复杂问题求解的能力,跨越任务与领域边界,从而在各类真实任务中展现可靠而深刻的智能。1. 来自全球Top高校计算机科学、人工智能、机器学习、深度学习、软件工程、数学、物理或相关领域毕业生,博士/硕士毕业生优先;4. 定义与探索更优训练范式:在实践中推动训练方法的演进,从而训练出更强大、更可靠、更智能的模型。4. 对LLM的能力,系统,数据,训练和评估有深入的逻辑思考。扫描下方小助手的微信,pick 你心仪的岗位~

2025-09-15 23:37:16 128

转载 从Muon到AdaMuon:下一代优化器能否真正取代Adam?

我本着吃瓜的态度,搜索了一下 Muon 的论文,结果 google scholar 上没有,arxiv 上也没有,最后才发现是一篇博客。这也让我有些犹豫:转向一个新方向必然带来一定的成本,而当时我正专注于 model merging 方面的研究,同时 hold 两个方向虽然可行,但前者已是一片红海,后者却仍迷雾重重——鸡蛋固然不应放在一个篮子里,但资源的分配也需谨慎权衡。这就是牛顿迭代的思想,最终通过设计一个多项式,通过迭代多次,便可以将一个 [0,1] 之间的数映射到 1 或者接近 1。

2025-09-15 23:37:16 134

原创 KDD 2025最佳论文亚军:参数不同还能共训?异构知识迁移框架HtFLlib全面开源

在 HtFLlib 中,我们传输轻量级的信息载体,而不是暴露模型参数,这通常是由知识蒸馏相关方法实现的,而具体实现方式由不同的 HtFL 方法各自决定。HtFLlib 项目是在我们更早的一个著名项目 PFLlib 上建立的,但由于异构模型的引入,使得我们需要重新定义通讯方式、本地模型更新方式等,于是我们另起炉灶,但同时也保证 HtFLlib 可以兼容 PFLlib 的数据集和数据异构场景。然而,这些客户端通常拥有宝贵的私有数据,在这种情况下,采用更小的、异构的模型更为合适。

2025-09-12 20:37:48 662

转载 「做笔记」的RAG来了!告别噪声与骨牌效应,EviNote-RAG稳住长链推理

这一案例生动展示了 EviNote-RAG 在低信噪比环境下的优势:即便存在大量混淆性信息,模型依然能够通过「先做笔记、再给答案」的流程,构建出基于真实证据的推理链,从而避免被误导。EviNote-RAG 概述:为了提高信息利用率,该方法引入了一个记录阶段,在这个阶段,模型生成支持性证据笔记(SENs),这些笔记只捕获回答所需的信息。EviNote-RAG 与传统方法的对比:EviNote-RAG 通过证据注释提取关键信息,并在蕴意法官的指导下,确保保留的内容直接支持答案,从而减少噪音并提高性能。

2025-09-12 20:37:48 119

原创 Adam的Update RMS为何总是0.2?噪声模拟到理论近似全讲透

首先描述一下现象:从实验中我们观察到,大致上在 Warmup 结束、模型进入正式训练后,Adam 的 Update RMS 几乎都保持在 0.2~0.3 之间,并且不同尺寸的模型也呈现出相似的规律。中,我们提出了 “Match Adam Update RMS” 的技巧,以便快速从 Adam 迁移到 Muon 上,这个技巧同样用到了 Kimi K2 的训练中。这一技巧的背后,是我们观察到 Adam 的 Update RMS 约等于 0.2,并且这一现象是稳定且可复现的。,这跟前面的模拟结果吻合。

2025-09-12 20:37:48 913

原创 别再狂刷CoT了!港科广DIGAI Lab发布隐式推理全景综述,静默思考开启新范式

也有研究从模型可观察到的行为上,证明隐式推理的存在,例如,模型在过拟合后的长期训练中会突然“觉醒”,在解题时可能出现“跳步推理(step skipping)”,或者出现“推理跳跃(reasoning leap)”等特征,这些现象都表明,推理并不总是依赖显式输出。这样一来,模型可以在不增加参数的情况下,像显式推理那样模拟多步推理链。整体来看,这类方法强调 LLM 的深层结构本身可能就是隐式推理的“引擎”,通过循环与递归计算来支撑复杂任务中的多步思考,并在长链推理和跨任务泛化上展现潜力。

2025-09-11 23:45:27 843

转载 SFT真不如RL?MIT团队抛出“RL的剃刀”,砍掉遗忘直通终身学习

几天前,来自麻省理工学院(MIT)Improbable AI Lab 的研究者针对该问题发表了一篇研究论文,将奥卡姆的剃刀伸向了大模型后训练,揭示了大模型遗忘现象的基本规律和训练策略,目前已在 Alphaxiv 上热度排名第一。我们已经进入了大模型时代,越来越多的应用依赖大模型的能力,可以说大模型已经成为智能化基础设施的核心组成部分,支撑着语言,视觉分析,智能驾驶,机器人等各种下游应用。如果我们希望实现更加通用的大模型,使其能像长期的智能助手一样,随时间不断适应新的任务与需求,很多技术瓶颈亟待突破。

2025-09-10 13:41:09 89

原创 DeepSeek、Gemini都不行?AgenTracer锁定多智能体“背锅侠”,8B小模型反超闭源巨模

AgenTracer 首次实现了多智能体系统的自动化失效归因,以 8B 的参数量在多智能体错误故障判断领域反超 GPT-4.1,Gemeni-2.5-Pro 等巨头模型,为多智能体研究补上了至关重要的一环。相比之下,传统的反思式方法(如 Self-Refine、CRITIC),即便搭配 GPT-4.1,效果反而可能是负的——因为它们往往停留在表面修正,而缺乏对真正根因的把握。然而,越是复杂的系统,也越容易出现脆弱性。更棘手的是,有些错误并非显而易见,而是埋藏在早期的步骤中,只有在几十步之后才显现。

2025-09-10 13:41:09 423

转载 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽

研究涵盖大语言模型(LLMs)在自然语言理解与生成中的知识保留与任务适应、多模态大模型(MLLMs)处理跨模态数据时的抗遗忘能力、视觉语言动作模型(VLA)在机器人动态环境中的行为迁移与适应,以及扩散模型(Diffusion Models)针对个性化生成需求的增量学习。数据是多模态大模型强大性能的核心支撑,因此,在研究多模态大模型的持续学习任务前,首要问题是构建一个由多个下游任务组成,且其数据与多模态大模型的预训练语料库不重叠的评价基准。总有一些你不认识的人,知道你想知道的东西。

2025-09-09 13:41:33 111

转载 ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线

本质上,PR 的核心要求是根据问题得到正确答案,而 AR 的核心要求是提出正确的问题来获取关键的信息。4. 基于搜索的方法在 AR-Bench 中依赖于每一轮评估问题质量的验证器的可靠性,表现在对 GN 任务有显著提升 (验证器基于数值反馈构建,简单可靠),而在 SP 任务下无法提升推理表现 (验证器基于自然语言反馈构建,复杂且相对不可靠)。对主动推理问题的探索,有助于我们更好地理解和提升 LLM 在真实、复杂场景下的智能水平,推动其从一个被动的文本处理器,转变为一个能够主动解决问题的人工智能体。

2025-09-09 13:41:33 55

转载 给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新

传统的强化学习方法,如近端策略优化(Proximal Policy Optimization,PPO)及其变种,包括组相对策略优化(Group Relative Policy Optimization,GRPO),在处理复杂推理任务时表现出了强大的潜力。在训练过程中,GRPO 经常出现极端重要性采样比率,更新不稳定,而 GMPO 有更稳定的重要性采样比率,更新更加稳定(右)。范围越宽,表示策略更新越不稳定。与传统的算术平均方法相比,GMPO 的策略更新更加稳定,探索能力更强,同时减少了过拟合的风险。

2025-09-08 13:32:10 88

原创 Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知

最终的可视化结果也清晰展示了 DUO 的优势:在复杂光照、传感器噪声等极端环境下,模型不仅能够更精准地识别远距离和小目标,还能保持对三维空间结构的稳定理解,显著提升了整体的鲁棒感知能力。另一方面,无监督 Focal Loss 打破了经典损失函数对标签的依赖,在测试阶段模型适配中展现出显著增益,同时保持与有监督训练一致的超参数设置,避免了额外调优成本。3. 在 更大规模、更高复杂度的模型体系中,无监督 Focal Loss 以其简单的使用条件(无需标签、与有监督 loss 兼容)展现出极强的可扩展性。

2025-09-08 13:32:10 471

转载 推理加持的排序SOTA!把“召回+相似度”写进RL,文档排序更稳更准

我们利用得到的 pointwise 标签对 listwise 标签中的 gold ranking list 计算排序指标 NDCG@10,小于阈值 α 的数据将被过滤掉(表明教师模型 R1 判断不一致,相应数据样本被丢弃),最终我们得到 13K 高质量的多领域训练数据集。推理大模型(Large Reasoning Model)极大的促进了自然语言处理领域的发展,而信息检索领域的核心问题之一是文档排序,如何利用强大的推理大模型通过主动推理来判断文档的相关性,进而再对文档进行排序是一个值得探索的方向。

2025-09-05 13:05:56 105

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除