PaperWeekly-CSDN博客

转载大模型推理上半场收官：单实例优化见顶，迈向低时延×长上下文

3 月，DeepSeek 开源周公布的大量优化技术，2 个月过去了，vLLM 和 SGLang 均已集成了开源周公开的各项优化手段，在上诉几个方面做了非常深入细致的优化，实现了矩阵计算效率，通信效率和 MLA 算子的大幅性能提升。目前，主流推理框架开销已经可以做到几 ms 以内，框架侧时延优化的空间有限，接下来主要优化点在提升 HBM 带宽的利用率，这需要在算子调度上做深度优化、进行更大粒度的算子融合，以及更加精细的显存管理，随之而来的工程难度也不断攀升。多媒体数据的分析也需要消耗大量的 tokens。

2025-08-28 22:09:08 39

原创绕过Softmax！「语义能量」替代语义熵，大模型幻觉检测迎来新突破

按照语义，将回复聚类成不同的语义簇，例如 Question 1 的回复聚类成了 3 个簇，而 Question 2 和 3 的回复都只聚类到了一个簇（语义分析会影响性能，建议使用能力强大的模型，轻量模型建议用 TIGER-Lab/general-verifier）。顾名思义，语义熵在计算熵的同时考虑了回复的语义，通过将相同语义的回复聚类，将不同的回复但相同的语义作为一个整体，来适应自然语言中正确答案的丰富表述形式。Question 1 计算出来的语义熵更高，准确的捕获了幻觉的出现。

2025-08-28 22:09:08 771

转载 ICML 2025 | 会做题≠会思考？首个反例驱动推理基准：揭穿大模型“刷题式假象”

这很好地符合了我们的假设，当模型学会这种额外的使用例子进行推理的能力时，可以增强整个数学领域的概念推理能力。我们进一步在 OOD 的基准上进行评估，希望证明我们训练后的模型，不仅在专有的反例数学概念推理基准 COUNTERMATH 上有较好的能力，还可以将这种举反例的能力迁移到其他数学能力基准测试中，有着更为通用的性能提升。受人类数学教学中“反例证明”的启发，我们认为，利用举例子，尤其是举反例，可以极大地推动数学概念的理解和灵活的证明过程，既能揭示数学命题中的细微差别，也有助于模型掌握数学本质。

2025-08-28 22:09:08 25

原创横扫GUI十大榜单！通义重磅开源Mobile-Agent-v3，多智能体协作神器登场

在 Mobile-Agent-E 和 Agent-S2 两大多智能体框架中整合不同的 VLMs，GUI-Owl 在其中分别选用 Mobile-Agent-E 以及 Agent-S2 作为 AndroidWorld 以及 OSWorld 的评测框架进行评测，GUI-Owl 全面超过 UI-TARS-1.5、Qwen2.5-VL 等知名开源模型甚至闭源模型 Seed-1.5-VL。GUI-Owl 的成功验证了端到端多模态架构在复杂 GUI 任务中的有效性，为未来智能交互系统的发展奠定了重要基础。

2025-08-27 13:08:22 668

转载直播预告 | 人大高瓴赵鑫教授：AI慢思考与大模型复杂推理

本次报告将聚焦大模型慢思考的基础技术与实现方法，对于其中可能涉及到的技术路径进行探索和系统性讲解，主要介绍以强化学习为主线的关键技术，并结合自身实践经验讨论其中的技术挑战，然后探讨推理模型的科学价值，并且总结现阶段推理模型的局限以及未来的技术发展趋势。施普林格·自然计算机科学图书编辑总监常兰兰（Celine Chang）将深入介绍这两个图书合集的内容亮点，重点阐述其在科研与教学过程中对科研人员和机构的应用价值，并分享出版学术图书的优势与所获支持。参与直播，可获取资深编辑精选的人工智能领域精选书单。

2025-08-27 13:08:22 27

转载唯快不破！400+篇文献精炼：从Flash到MoE，大模型高效架构全景解析

最后正如帝国时代 3 中这条神奇代码 “Speed Always Wins” 能让游戏世界 “Increases build，research，shipment，and gather rates by 100 times for all players” 一样，我们希望综述中的 Efficient Architectures 可以真被用来 100x 加速 AI 世界的构建，更快更便宜地训练出更强更实用的大模型。请记住这条神奇代码—>大模型的训练与推理的成本居高不下，成为制约其广泛落地和应用的现实瓶颈。

2025-08-27 13:08:22 23

转载清华科技园硬核闭门局！九坤技术圆桌派：大模型Infra、训练与应用全景深聊

end—

2025-08-26 18:50:01 31

转载 Chain-of-Agents重磅登场！通用智能体新范式横扫SOTA，模型代码数据全开源

即使使用更小的 Qwen-2.5-7B-Instruct 主干，AFM 仍在 HLE 任务中取得 15.6% 的成绩，仅略低于采用更大主干的 WebThinker-RL（15.8%），同时在多个基准任务中超越其他集成工具的 32B 模型。为了进一步提升智能体的多工具协作策略，在强化学习（RL）阶段，本方法进一步利用约 85k 条高质量的 Agentic 任务、数学问题和代码任务数据，通过严格的数据质量筛选与策略抽样，确保强化学习专注于最具挑战的任务，防止过拟合。

2025-08-26 18:50:01 35

转载 PPO为何稳赢Policy Gradient？答案藏在这刀“黄金剪裁”

©作者 | Cheney训练老是翻车，调参像在碰运气？多数时候问题出在策略更新的“步子”迈得太大。Policy Gradient 简单直接却极易不稳，TRPO 在稳定性上更有保障，却因复杂实现难以普及。PPO 则在两者之间找到黄金分割点：它用“一刀剪”锁住策略更新的幅度，多轮复用同一批数据，提高效率，还不需要繁琐的二阶优化。这样的设计，让 PPO 成为学术界和工业界应用最广的强化学习算法之一。接下来，我们先从 RL 的基本直觉出发，看看它为什么能迅速走红。引言：强化学习的“痛”1.1 什么是强化学习？（快速

2025-08-26 18:50:01 20

原创挑战AR霸权！MBZUAI发布扩散语言模型全面综述：解析语言建模新范式

在每一步迭代中，模型根据一定的策略（如置信度排序）确定哪些 [MASK] 标记的预测可以被接受，替换为输出的真实 token，而哪些低置信度的位置需要保留为 [MASK]（重掩码）以待后续步骤进一步优化。近来，受到扩散模型在图像和其他连续数据上的应用的启发，扩散语言模型正在迅速发展，得到了广泛关注。：在强大的文本 DLM（如 LLaDA）基础上，增加一个视觉编码器（Vision Encoder），将图像特征投影到文本的嵌入空间中，从而实现对图像的理解和描述，代表模型有 LLaDA-V 和 LaViDa。

2025-08-25 18:12:06 316

转载 AI岗位全面加码！蚂蚁集团2026届秋招正式启动，11城同步开放

如果你正好在权衡继续深造还是进工业界，可以把这次校招当成一次并行实验：一边保持学术节奏，一边把实验结果推到真实用户面前。，AI 方向覆盖大模型、多模态、具身智能、AI 安全等一线课题。杭州、北京、上海、深圳等。此次蚂蚁的秋招，我们特别为大家争取到PaperWeekly。只要扫描下方专属二维码，点击文末「阅读原文」投递，蚂蚁集团 2026 届秋季校招已经启动。机会有限，记得尽快行动。

2025-08-25 18:12:06 79

转载考场高分≠临床可靠！全球首个医疗动态红队测试框架，破解医疗AI落地危机

我们需要更强大的模型，也需要更严格的审计。在模拟的 81 个可能诱发隐私泄露的场景中，即使在没有施加任何对抗性策略的直接请求下，模型的平均“越狱率”也高达 86%。这项研究的意义是深远的。DAS 框架将“红队测试”从一个静态的清单转变为一个动态的、可持续的审计流程，它能够与被测试的模型共同进化，从而避免了“应试教育”带来的虚假繁荣。「未来每一个医疗 LLM 模型的发布，都能附带一份类似 DAS 框架生成的“风险档案”，就像药品说明书上的不良反应列表一样，清晰、透明地向世人展示其能力的边界和潜在的风险。

2025-08-22 14:27:17 54

转载别再分开训！SFT+RL融合范式全解析：统一视角下的六大方法

因此，需要对来自于 SFT 部分的 token 进行筛选，仅保留熵最高的 top-k% 个 token 的梯度。带基线的 REINFORCE 本质上是用优势函数来代替奖励，相比于奖励的直接含义，优势函数代表相对于平均状况的改善程度。当模型同时接收 On 和 Off 的信号时，其倾向于优先加强那些既存在于 On-Policy 轨迹中，也存在于 Off-Policy 轨迹中的概率较高 token。但是，训练中发现其加速收敛的同时，也显著抑制了探索，导致快速的熵坍缩，如上图左所示。显然，这样的方式更自然一些。

2025-08-22 14:27:17 97

转载提分不提参！遥感图像四大SOTA trick：多模态融合、统一框架、轻量化与新范式

这不仅减少了模型参数，提高了效率，也增强了模型的泛化能力，使其能更好地理解和利用不同模态的信息。如果你刚开始准备顶会论文，一定要主动和导师沟通：把你的困惑、初步想法多分享，导师的一句话，可能就是解开难题的钥匙。提出了轻量级遥感图像分割网络 LiteSeger，融合了 CNN 的局部特征提取能力与 Transformer 的全局建模优势，兼顾精度与效率。轻量化设计通过优化网络结构、引入高效的注意力机制或稀疏激活等方法，实现了精度与效率的平衡，增强了模型的可部署性。例如，VectorLLM通过端到端的点回归，

2025-08-21 13:37:11 53

转载博士申请 | 香港理工大学Ajay Kumar教授（IEEE Fellow）招收计算机视觉全奖博士生

Prof. Ajay Kumar 是香港理工大学数据科学与人工智能学系的 Full Professor 及 Associate Head (Research)，IEEE Fellow 与 IAPR Fellow，长期从事计算机视觉、生物识别与可信AI系统的研究，具有广泛的国际影响力。由于 Prof. Ajay 不常使用社交媒体，此信息由其我代为发布，旨在让更多踏实科研、热爱视觉与AI的同学看到这一机会。除此之外，我也正在筹建自己的研究团队，方向聚焦 AIGC、3D视觉生成与 Agentic AI。

2025-08-21 13:37:11 50

转载训练减半反超GRPO！Shuffle-R1引入动态洗牌术，突破多模态RL效率瓶颈

我们希望通过一个动态的批次重构操作，删除掉无梯度的样本，同时复用批次中的高价值样本，提高训练效率的同时实现更加充分的模式学习。Shuffle-R1 的核心就是把有限的更新“配给”到最能带来收益的样本，实现以数据为中心的训练效率最大化，进而提升模型的推理能力再进步。统计训练批次的优势值分布可以发现，Shuffle-R1 在训练中鼓励了更多的高优势值样本参与训练，有效的缓解了 Advantage Collapsing 现象。多模态 RL 在近一段时间获得了大量的关注，催生了一系列的研究工作。

2025-08-21 13:37:11 43

转载 ICLR 2025 | 大模型为何会“举一反三”？揭开「上下文学习」的小样本学习密码

以上结果说明 ICL 模型能够学习到预训练任务集上最优的学习算法，并且与传统的元学习器相比 ICL 模型具有更强的表达能力，因为它们不仅能够学习到已知的最优学习算法，还能够根据数据的分布特性表达出传统视野之外的学习算法，这使得 ICL 模型在处理多样化任务时具有显著优势。我们还对 ICL 模型学习到的算法的泛化性进行了实验研究。借助元学习领域成熟的理论基础与方法经验，理论证明了作为实现学习算法的模型，基于 transformer 的 ICL 模型与传统的元学习器相比具有更强的表达能力（图 1 右）。

2025-08-21 13:37:11 68

转载类PPO强化学习三部曲：GRPO简化→DAPO修正→GSPO全面进化

GRPO 这个问题的影响是长 token 序列的训练中每个 token 的修正幅度慢，比如对于长思维链的输出，假如最终推导结果正确，无论思维的过程很优质还是思维过程很差，该组的训练都不会对中间过程的 token 有较大的修正，比如优质内容的 token 采样概率应该增大，很差的思维过程 token 采样概率应该减小。是可以展开的，根据展开的方式不同也会存在非常多类型的优势函数，如果是 1 步展开即 TD（时序差分），如果全部展开到序列结束，则为 MC（蒙特卡洛），介于两者中间的为 GAE（广义优势估计）。

2025-08-20 13:32:35 88

转载 ICCV 2025满分论文！空间理解与主动探索大统一，MTU3D重塑AI具身导航范式

场景中构建数据：其中，真实轨迹主要来源于 ScanNet 场景的问答与指令任务数据，这些数据包含丰富的视觉-语言对齐信息，有助于提升模型在复杂环境中的语义落地能力。这一工作的出现，将 “理解” 和 “探索” 结合在一起，让 AI 像人一样，一边探索环境，一边理解指令，逐步建立起对周围世界的认知。总有一些你不认识的人，知道你想知道的东西。在数据构建方面，作者提出了一种虚实结合的策略，融合了来自真实 RGB-D 扫描数据与虚拟仿真环境的导航轨迹，以综合提升模型的视觉理解与探索能力。

2025-08-20 13:32:35 64

转载 90.5%准确率登顶8B模型榜首，快手Klear-Reasoner破解RL训练裁剪难题

现实是，很多中小规模的开源推理模型，在 AIME 这样的高难数学竞赛题、或 LiveCodeBench 这样的复杂代码评测中，依然与闭源 SOTA 存在明显差距。原因在于，高质量来源的数据往往封装了解决复杂任务所需的最有效、内部一致的推理模式，而添加低质量来源数据会不可避免地引入噪音，例如逻辑混乱、不正确的推导或低效的问题解决策略，从而在训练过程中影响模型的优化方向。软奖励不仅缓解了奖励稀疏问题，还增加了训练信号的密度，降低了梯度估计的方差，让模型的学习过程更稳定、更高效。

2025-08-20 13:32:35 39

转载 CVPR 2025 | 打破壁垒！多模态统一学习新范式来了，数据、模型、代码全开源

然后为了进一步在学习过程中促进任务间的相互协助，本文提出了一种具有多个 Head 的类 MoE LoRA 结构，每个 Head 负责学习多模态数据交互的不同层面，通过这种结构将模型的不同能力解耦，让任务间的互助关系显示地展现出来，共享的能力在不同任务间建立起相互协助的桥梁。为了进一步地促进任务间的显示互助并将互助关系显示地体现出来，本文提出了具有显示推理过程的视听场景指令微调数据集 AV-UIE，通过细化现有数据集的标签，额外增加了显示的推理过程，其中包含具体的时空信息，这些信息明确了任务间的互助关系。

2025-08-19 13:49:21 69

转载重温经典！十年前的视觉MoE雏形：HD-CNN用分层路由预演大模型逻辑

列（d）-（f）：前 3 个细分类模块得到的 Top-5 预测结果。这项研究是由目前在香港大学计算与数据科学学院的俞益洲老师在 UIUC 的博士生严志程主导完成，首次在深度神经网络中成功实现了“分而治之”的层次化推理，并达到了当时十分优秀的性能，成为深度学习模型结构创新的经典案例。以 CIFAR100 数据集为例，这种“一刀切”的设计具有明显劣势，因为该数据集本身包含 20 个粗粒度类别（如“水果蔬菜”和“交通工具”），每个粗类包含 5 个细类，但传统 CNN 未能利用这种层次结构。

2025-08-19 13:49:21 44

原创 FlashCommunication V2登场！突破「任意比特」通信瓶颈，加速大模型分布式训练与部署

在此背景下，论文《FlashCommunication V2: Bit Splitting and Spike Reserving for Any Bit Communication》提出了一种创新的通信范式，通过比特分割（bit splitting）和尖峰保留（spike reserving）技术，实现了任意比特宽度下的高效跨 GPU 传输，为大模型分布式系统提供了关键优化方案。硬件通常仅支持规整比特宽度（如 INT4、INT8），而不规则比特（如 INT5、INT6）的传输效率极低。

2025-08-19 13:49:21 552

转载教会7B模型“自我思考”！腾讯RLVMR刷新智能体认知，长程任务表现直追GPT-4o

此外，我们的方法训练出的智能体更「聪明」，解决任务的路径更直接，在 ALFWorld 和 ScienceWorld 的 L2 复杂环境中，所需动作数最高减少 28.1%。总有一些你不认识的人，知道你想知道的东西。我们发现，通过奖励「好的思考过程」，RLVMR 帮助智能体建立了一套通用的、不依赖于特定任务的「元问题解决框架」（如何规划、如何探索、如何反思）。RLVMR 的工作，正是鼓励大模型从偶然涌现的能力，走向特定思维模式的强化，为构建更鲁棒、更高效、更可解释的通用智能体迈出了坚实的一步。

2025-08-18 13:37:49 56

原创 ICCV 2025 | 告别“高分低能”！奖励模型新突破：ICT-HP让文生图更懂人类审美

在一项对 300 个随机样本的人类评估中，与 Base 模型 SD3.5-turbo 以及 PickScore 优化过的 SD3.5-turbo 模型相比，ICT-HP 优化过的生图模型胜率更高，证实了该方法在实际人类偏好上的有效性。现有的奖励模型在评估文本-图像对齐时，错误地假设图像中的信息内容与文本描述存在潜在的等价关系。，在 CLIP/BLIP 和基于此继续微调的奖励模型，在面对经过大型语言模型 CoT 优化后的更丰富的提示词生成的图像时，现有奖励模型会给出更低的不合理评分。

2025-08-18 13:37:49 750

转载 LLM为什么能看懂图？秘密不在Projector，残差结构才是跨模态理解的关键

这说明，纯文本 LLM 中天然就存在模态无关的神经元。然而为了训练整个 VLM，其中的 LLM 需要费更大的劲（至少需要经过一定训练）来理解这些图像 embedding，然而以 X-InstructBLIP 为代表的 MLLM 中的未经多模态训练的纯文本 LLM 却能直接理解 projector 所编码的多模态 embedding。因为 projector 的训练目标是文本描述的自回归损失，且并没有直接对 projector 的输出进行约束，这导致 projector 的输出是个黑盒，难以找到明确的解释。

2025-08-18 13:37:49 57

转载论文速递 | 国防科技创新研究院-Nature子刊《自然-机器智能》：融合重建模型与传感器布局优化的双层可微学习框架

实验表明，在周期性物理场与湍流物理场重建问题上，所提技术有效提升平均相对误差15%以上，能够突破既定网络架构对精度的固有限制，显著提升重建精度，为深度重建模型与传感器布局优化的融合与应用提供创新思路。图2展示了不同初始布局下优化后的传感器分布热图与代表性布局的重要性排序，尽管初始布局具有随机性，但大多数优化后的传感器布局一致地收敛于尾流区域附近，这一结果突显了 DSPO 在识别流场中高信息增益区域的能力。传感器布局优化需要耦合嵌套重建模型训练与精度评估，其本质是双层优化问题，利用启发式优化代价高昂；

2025-08-17 22:13:13 45

原创 ICCV 2025 | 北大开源AR-VRM：第一人称视频驱动关键点迁移，实现机器人类比学习

通过在微调过程中使用人类动作视频样本对 VLM 的 Transformer 层进行训练，我们不仅能够让关键点特征引导机器人状态预测头的训练，还能起到数据回放（data replay）的作用，防止 VLM 在有限的机器人数据上过拟合，并避免遗忘在预训练阶段获得的视觉-语言理解与动作预测知识。：在机器人数据有限的情况下，我们首先从人类教学视频数据库中检索出具有相似操作任务和历史观测的人类动作，利用预训练好的关键点 VLM 预测未来的动作，并引入类比推理机制，建立人类手部关键点与机器人部件之间的对应关系。

2025-08-17 22:13:13 733

转载告别Transformer？上海交大「原生类脑」BriLLM首秀：信号流重塑大模型范式

大脑皮层区域分工明确，Nature 2016 论文的研究显示，语言元素的语义特征分布在整个大脑皮层，不同的皮层区域会编码特定的语义内容，而且这种组织方式在不同个体之间具有一致性。简而言之，BriLLM 提出了全新的语言模型架构、全新的动态信号驱动的生成式人工智能任务框架以及首个对人类大脑核心表达与功能机制的宏观全局尺度计算模拟的模型。总有一些你不认识的人，知道你想知道的东西。，脱离了传统 Transformer 架构的限制，以脑科学神经系统为灵感，用受大脑启发的动态信号传播替代了基于注意力的架构。

2025-08-14 23:53:36 317

原创 ICML 2025 | 模型不开口也能配合？贝叶斯纳什均衡重塑多智能体LLM协作

完整的理论分析和详尽的实验结果表明，该框架在性能、效率和可扩展性方面均表现出强大的能力，为构建大规模、高效的多智能体系统提供了新的思路。实验证明，ECON 在六个复杂的推理基准上，性能平均超越现有方法 11.2%，同时相较于 3 轮的多智能体辩论，平均减少 21.4% 的 token 消耗。如图 4 所示，采用此机制后，系统性能得到持续且显著的提升。：通过大量实验证明，ECON 在多种复杂推理任务上超越了现有的单智能体和多智能体方法，并验证了其在同异构模型配置下的有效性、成本效益和良好的扩展能力。

2025-08-14 23:53:36 1098

转载别再二选一了！一文看懂On-Policy与Off-Policy的本质分歧（含GRPO深度拆解）

GRPO 是一种 on-policy 策略优化方法，它在传统 Advantage 函数的基础上引入“动作组内的相对优势”作为优化依据，从 Q(s,a) 的角度看，它不是直接优化 Q 值，而是间接对 Q(s,a) 与 V(s) 的差值进行 group-wise 归一化，从而提升策略更新的稳定性与鲁棒性。On-policy 强调“靠自己经验成长”的策略闭环，Off-policy 强调“借助他人经验学习”的策略解耦，本质区别在于数据来源与策略更新的是否一致，体现了强化学习中探索与利用的矛盾运动。

2025-08-14 23:53:36 156

转载 Attention Sink的起源找到了？清华×美团首次锁定MoE中的「超级专家」

在 DeepSeek-R1 和 Qwen3-30B-A3B 上一致地显示，裁剪超级专家后，对推理任务造成了重创，在 AIME 2024，AIME 2025，LiveCodeBench 等测试上，模型的 Pass@1（一次通过率）直接降为 0.00%。原始模型以及随机裁剪的模型能够条理清晰地分析问题，而裁剪了超级专家的模型的回答会陷入无意义的、机械的重复，直到达到最大输出长度。随后，通过对不同模型和输入数据领域的分析，深入探讨了超级专家的分布特征，并进一步揭示了其在多个模型中的广泛存在。这无可辩驳地证明了，

2025-08-13 23:36:09 50

转载 ICML 2025 | 奖励模型还用人标？APEC用对抗模仿生成偏好，泛化能力直线上升

在这里分享一下这篇工作。我们通过进一步实验分析发现，以往方法表现不佳的原因在于其学习到的奖赏函数在被用于策略训练的过程中会出现 reward hacking 的现象（图 4），即在学习到的奖励函数下策略的累积回报会随着学习过程在逐渐上升，但是该策略的真实累积回报却没有提升甚至下降。在每张图中，x 轴表示智能体在 x 轴上的位移，y 轴表示智能体在 x 轴上的速度。APEC 在 8 个任务中的 7 个达到了优于或接近示范数据的表现，而其他方法在我们的具有挑战性的设置下（如更少的示范、更复杂的任务）表现不佳。

2025-08-13 23:36:09 217

转载 Kimi K2背后的冷门绝招：海量语料“重写”如何榨干每个token？

2. 基本方法是，rephrase prompt 中设定两个结构化变量，genre（风格/流派）和 audience（阅读者视角），这部分数据是从所谓的优质语料（未披露来源）中抽取得到，调试 prompt 收集样本，然后训练内部自研模型产生工具模型，在大规模语料库进行扩展，产生语料后经过一个 LLM judge 进行质量校验。1. prompt 调试，找到有效的提示词模板，保证产生的文本大部分可用或只需要简单后处理，这在操作多样、庞大的语料库时并不容易，通常需要反复试验和有效的验证手段。

2025-08-13 23:36:09 60

原创后训练轻量「小枝」强势出击！极限剪裁视觉token，推理加速154%

正如自然界中的树枝能够灵活延伸、适应环境一样，TwigVLM 通过巧妙的架构设计和推理设计，在剪枝了 88.9% 的视觉 token 时（以 LLaVA-1.5-7B 模型为例），保持了 96% 的原始性能并实现了 154% 的长文本生成加速。具体来说，会通过注意力图中的 prompt 文本 token 对视觉 token 的关注度的相对占比，计算每个视觉 token 的重要性指标，然后根据这个指标的排序删除低重要性的 token。这也导致了，token 重要性的依据是来自模型早期层的注意力图。

2025-08-12 12:34:19 572

转载 ICCV 2025 | Scaffold反噬联邦学习？NTU联手0G Labs揭示中心化训练安全漏洞

因此，将这些本地模型进行平均时，得到的全局模型可能会偏离真实的全局最优解，尤其是在存在大量本地训练轮次的情况下。如下图 1 所示，在 IID 场景下，全局最优解与本地最优解相对一致，而在非 IID 场景下，全局最优解可能与单个本地最优解相距较远，这一现象被称为客户端漂移（client-drift），从而导致 FL 训练过程中的收敛变慢且不稳定。与以往的攻击方法不同，BadSFL 利用了 Scaffold 的校正机制，不仅增强了后门的隐蔽性，还提升了其持久性，从而揭示了 SFL 方法中的一个关键漏洞。

2025-08-12 12:34:19 44

转载超越样本级RL！人大×快手提出ARPO：熵驱动Agent探索，多轮推理性能飙升

ARPO 首次发现模型在调用外部工具后会推理不确定性（高熵）显著增加的现象，并基于此引入了熵驱动的自适应 rollout 策略，增强对高熵工具调用步骤的探索。然而在真实推理场景中，LLM 往往需要结合外部工具进行多轮交互，现有 RL 算法在平衡模型的长程推理与多轮工具交互能力方面仍存在不足。ARPO 的核心思想在于结合全局采样与熵驱动的局部采样，在模型工具调用后不确定性升高的阶段加大探索力度，从而提升推理效果。，在保持全局采样的同时，在高熵工具调用步骤中鼓励分支采样。

2025-08-11 12:32:47 86

原创 ICCV 2025 | 终结灾难性遗忘！南大提出外部知识注入机制，刷新CLIP持续学习SOTA

例如，“a photo of a cat” 这一文本概念可以进一步分解为 “胡须”、“尾巴” 和 “毛发” 等特征，以与视觉表征匹配，但这些信息丰富的特征没有得到充分利用。通过这种方式，即使使用模板文本，提取的文本特征也将包含详细描述，例如当输入是“a photo of a cat”时，模型将突出“细长的尾巴”和“圆脸”等特征。在 GPT-4 的帮助下，我们可以提取更适合持续学习类别的信息丰富的局部特征，并将外部知识注入知识单元。我们在公式（10）中使用预训练 CLIP，因此，这一校准过程不需要持续更新。

2025-08-11 12:32:47 613

转载向量检索造数据全链路揭秘：Qwen3打样，Gemini精炼，Seed1.5推理升级

1. 这个三个模型，只有 qwen3 是完全开源，因此它的技术报告细节比较详实，其他两个是提供了 api，提供了一些技术报告，因此涉及这两篇的时候，如果原有的技术报告写的不详细，我会提供自己的一些猜测，如果没办法猜测，我会提供下原文。而通常做法中，使用开源模型挖掘的负例，时常无法贴合待训练模型的偏好。此外，作者表示，他们发现在 qwen3 上，双向的 attention 没有比过原生单向的 attention，因此，和之前的 gte 系列工作不同，这次是单向 attention。

2025-08-10 22:02:38 50

转载 Dijkstra非最优解！清华团队突破最短路径排序瓶颈，STOC 2025最佳论文详解

否则，若 u 所依赖的 S 中顶点 v 的最短路径树（SPT）中含有不少于 k 个 Ũ 顶点，那么可以将前沿 S 缩减为这些 “枢纽点（pivot）”，且这样的枢纽点数量最多为 |Ũ| /k。为了避免优先队列中每个顶点 Θ(log n) 的时间开销，他们考虑一个前沿集 S，其中包含所有当前满足 b ≤ d^(v) < B 的顶点（这里 B 是某个上界，并且不对它们进行排序）。它的基本思路是通过不断选择当前最短的节点，并更新与之相邻的节点的距离，直到所有节点的最短路径都被找到。

2025-08-10 22:02:38 171

空空如也

空空如也