- 博客(571)
- 问答 (1)
- 收藏
- 关注
翻译 Self-Distilled RLVR翻译
On-policy distillation(OPD)已成为 LLM 领域中一种流行的训练范式。与仅从环境中可验证结果获取稀疏信号的强化学习(RLVR)不同,OPD 选择一个规模更大的模型作为 teacher,为每个采样轨迹提供密集且细粒度的信号。近年来,该领域探索了 on-policy self-distillation(OPSD),其中同一个模型既作为 teacher 又作为 student,teacher 模型接收额外的特权信息(例如参考答案)以实现自我进化。本文证明,仅从特权 teacher 模型获
2026-05-27 15:24:56
23
翻译 PASK: Toward Intent-Aware Proactive Agents with Long-Term Memory翻译
主动性是通用人工智能(AGI)的核心期望。以往的研究大多局限于实验室环境,在现实世界的主动智能体方面存在明显的不足:深度、复杂性、模糊性、精确性和实时性等约束。我们研究了这一场景,其中有效的干预需要从持续的上下文中推断潜在需求,并在延迟和长期约束下,将行动建立在不断演变的用户记忆之上。我们首先提出 **DD-MM-PAS (Demand Detection, Memory Modeling, Proactive Agent System)** 作为流式主动人工智能智能体的通用范式。我们在 Pask 中实现了
2026-05-23 19:13:06
25
翻译 TIP: Token Importance in On-Policy Distillation翻译
On-policy 知识蒸馏(OPD)在 teacher 的逐 token 监督下,**训练 student 学习其自身的 rollout**,但并非所有 token 位置都同等重要,现有关于 token 重要性的观点并不完整。我们提出以下问题:**在 OPD 中,哪些 token 携带最有用的学习信号**?我们的答案是,信息丰富的 token 来自两个区域:student 熵高的位置,以及 student 熵低但师生差异大的位置——在这些位置,student 过于自信且判断错误。经验表明,**studen
2026-05-23 18:52:09
81
翻译 Thinking with Visual Primitives翻译
摘要 本文提出"Thinking with Visual Primitives"新型推理框架,通过将空间token(点/边界框)作为最小思维单元,有效解决多模态推理中的Reference Gap问题。模型采用高效架构设计,结合压缩稀疏注意力机制,仅需少量视觉token即可实现与GPT-5.4等前沿模型相当的推理性能。研究通过大规模网络数据构建和两阶段过滤流程,确保了视觉基元数据的质量和多样性。实验表明,该方法在复杂空间推理任务中表现优异,为构建高效多模态智能系统提供了新思路。
2026-05-16 17:54:54
40
翻译 RAG-ANYTHING: ALL-IN-ONE RAG FRAMEWORK翻译
检索增强生成(RAG)已成为突破大语言模型静态训练局限、扩展其应用范围的基本范式。然而,当前 RAG 的能力与现实世界的信息环境之间存在着严重的脱节。现代知识库本质上是多模态的,包含丰富的文本内容、视觉元素、结构化表格和数学表达式的组合。然而,现有的 RAG 框架仅限于文本内容,这在处理多模态文档时造成了根本性的缺陷。我们提出了 **RAG-Anything**,一个能够跨所有模态进行全面知识检索的统一框架。**我们的方法将多模态内容重新概念化为相互关联的知识实体,而非孤立的数据类型**。该框架引入了**双
2026-05-16 17:44:56
42
翻译 Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention翻译
长上下文建模对于下一代语言模型至关重要,然而,标准注意力机制的高计算成本带来了巨大的计算挑战。稀疏注意力机制为在保持模型性能的同时为提高效率提供了一个很有前景的方向。**我们提出了 Natively trainable Sparse Attention ——NSA,它将算法创新与硬件优化相结合,实现了高效的长上下文建模**。NSA采用动态分层稀疏策略,结合了粗粒度 token 压缩和细粒度 token 选择,从而兼顾了全局上下文感知和局部精度。我们的方法通过两项关键创新推进了稀疏注意力机制的设计:(1)我们
2026-05-07 13:05:26
46
翻译 Multimodal OCR: Parse Anything from Documents翻译
我们提出了一种名为 **dots.mocr** 的 Multimodal OCR (MOCR) 文档解析范式,**它将文本和图形联合解析为统一的文本表示**。与传统的 OCR 系统专注于文本识别并将图形区域裁剪为像素不同,我们的方法将图表、示意图、表格和图标等视觉元素视为一级解析目标,使系统能够在解析文档的同时保留元素间的语义关系。**该方法具有以下几个优势**:(1)它将文本和图形都重构为结构化输出,从而实现更忠实的文档重构;(2)它支持对异构文档元素进行端到端训练,使模型能够利用文本和视觉组件之间的语义
2026-05-07 11:16:53
48
翻译 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence翻译
我们发布了 DeepSeek-V4 系列的预览版,其中包括两个强大的混合专家 (MoE) 语言模型:**DeepSeek-V4-Pro**(参数量 1.6T,激活参数 49B)和 **DeepSeek-V4-Flash**(参数量 284B,激活参数 13B),两者均支持百万级上下文长度。DeepSeek-V4 系列在架构和优化方面进行了多项关键升级:(1) **混合注意力架构**,结合了压缩稀疏注意力 (CSA) 和重压缩注意力 (HCA),以提高长上下文的效率;(2) **ManifoldConstra
2026-05-07 11:08:49
218
翻译 DeepImageSearch翻译
现有的多模态检索系统在语义匹配方面表现出色,但它们隐含地假设 query-image 的相关性可以独立衡量。这种范式忽略了真实视觉流中固有的丰富依赖关系,其中信息分布在时间序列中,而非局限于单个快照。为了弥补这一不足,我们引入了**DeepImageSearch**,一种新的智能体范式,它将图像检索重新定义为一个自主探索任务。模型必须规划并对原始视觉历史进行多步骤推理,以基于隐式上下文线索定位目标。我们构建了 **DISBench**,这是一个基于互连视觉数据构建的具有挑战性的基准测试。为了解决创建上下文相
2026-04-25 14:58:48
36
翻译 Harness design for long-running application development翻译
摘要 本文探讨了如何通过创新的多智能体框架设计提升Claude在智能体编码领域的性能表现。作者构建了一个受GAN启发的三智能体架构(Planner、Generator、Evaluator),成功解决了长时间自主编码中的两大关键问题:上下文窗口焦虑和自我评价偏差。在前端设计实验中,通过制定可量化的评分标准(设计质量、原创性、工艺、功能性)并分离生成与评估流程,显著提升了输出质量。在全栈开发应用中,该框架通过持续会话和自动上下文压缩机制,实现了数小时自主构建功能完整的应用程序。实验表明,这种架构不仅能产生渐进式
2026-04-20 19:31:10
37
翻译 Effective harnesses for long-running agents翻译
摘要 本文探讨了长期运行AI智能体面临的挑战及解决方案。主要问题在于智能体在离散会话中工作时会丢失上下文记忆,导致效率低下。研究提出了双重解决方案:初始化智能体负责首次运行时设置环境(包括脚本、进度文件和Git提交),编码智能体则在后续会话中逐步推进任务。通过增量开发、严格测试和进度记录等方法,智能体能在多个上下文窗口中持续工作。实验表明,该方法能显著提升智能体在复杂任务(如Web应用开发)中的表现,但仍存在改进空间,如探索多智能体架构或将方案推广至其他领域。
2026-04-19 18:27:30
44
翻译 DFlash: Block Diffusion for Flash Speculative Decoding翻译
自回归大语言模型(LLM)性能优异,但其固有的顺序解码机制导致推理延迟高、GPU 利用率低。推测性解码通过使用快速 draft 模型来缓解这一瓶颈,该 draft 模型的输出由目标 LLM 并行验证。然而,现有方法仍然依赖于自回归 draft 生成,这仍然是顺序的,限制了实际加速的提升。Diffusion LLM 通过实现并行生成提供了一种很有前景的替代方案,但当前的 Diffusion 模型通常不如自回归模型。本文提出了一种推测性解码框架 **DFlash**,它采用轻量级块扩散模型进行并行 draft
2026-04-19 04:13:43
185
原创 Gemma 4:面向端侧、长上下文与智能体的开放多模态模型家族
Google DeepMind推出Gemma 4系列多模态模型,支持图像、文本和音频输入,具有卓越的性能表现。该系列包含四种尺寸的模型,采用Apache 2许可证开源,并支持多种推理引擎和微调工具。Gemma 4在架构上采用了创新的Per-Layer Embeddings(PLE)和共享KV缓存机制,提升了模型效率和性能。测试显示,Gemma 4在多模态任务(如OCR、语音转文本、目标检测等)中表现出色,并能原生支持函数调用和代码补全。基准测试表明,Gemma 4在推理、编码和视觉任务中均处于领先水平。项目
2026-04-14 15:53:17
399
翻译 Your Efficient RL Framework Secretly Brings You Off-Policy RL Training翻译
摘要现代强化学习框架(如VeRL)常采用不同实现方式处理rollout生成(vLLM)和模型训练(FSDP),这会导致on-policy学习隐式转变为off-policy学习。本文发现即使共享相同参数,不同后端(如vLLM和FSDP)产生的token概率可能存在显著差异。为解决这一问题,作者提出了一种权重采样技术:通过截断重要性采样(truncated importance sampling)校正模型更新方式,使其能感知这种系统级不匹配。该方法可扩展到PPO等算法,通过调整重要性比率来稳定训练过程。实验表
2026-04-13 21:56:21
52
翻译 SWE-Vision: A Minimal Agent for Advancing Visual Intelligence翻译
视觉理解和编码是前沿多模态大语言模型的两大核心能力——然而,它们与人类能力相比,表现却截然不同。在编码方面,模型已经远远超越了专家级水平,能够生成、调试和优化复杂的项目。但在视觉方面,差距依然巨大:正如我们之前的项目 BabyVision 所展示的那样,模型仍然难以完成人类能够轻松解决的任务。这种不对称性引出了一个自然的问题:编码能否用于提升视觉能力?
2026-04-05 03:52:58
91
翻译 Scalable Diffusion Models with Transformers翻译
我们探索了一种基于 Transformer 架构的新型扩散模型。我们训练图像的潜在扩散模型,用一个作用于潜在图像块的 Transformer 网络替换了常用的 U-Net 骨干网络。我们通过前向传播复杂度(以Gflops衡量)来分析扩散 Transformer(DiT)的可扩展性。我们发现,通过增加Transformer 的深度/宽度或增加输入标记的数量来提高 Gflops 的 DiT,其 FID 值始终更低。除了具有良好的可扩展性之外,我们最大的 DiT-XL/2 模型在 ImageNet 512×512
2026-04-05 03:46:49
36
翻译 OpenSeeker: Democratizing Frontier Search Agents by Fully Open-Sourcing Training Data翻译
深度搜索能力已成为前沿大语言模型(LLM)智能体不可或缺的核心能力,然而,由于缺乏透明、高质量的训练数据,高性能搜索智能体的开发仍然被行业巨头所主导。这种持续的数据匮乏从根本上阻碍了更广泛的研究群体在该领域的开发和创新。为了弥合这一差距,我们推出了 **OpenSeeker**,这是首个完全开源的搜索智能体(包括模型和数据),它通过两项核心技术创新实现了前沿级别的性能:(1)基于事实的可扩展可控问答合成,它通过拓扑扩展和实体混淆对网络图进行逆向工程,生成具有可控覆盖范围和复杂度的复杂多跳推理任务。(2)去噪
2026-03-29 17:20:51
126
翻译 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE翻译
尽管 Transformer 架构已成为自然语言处理任务的事实标准,但其在计算机视觉领域的应用仍然有限。在视觉领域,注意力机制要么与卷积神经网络结合使用,要么用于替换卷积神经网络的某些组件,同时保持其整体结构不变。我们证明,这种对卷积神经网络的依赖并非必要,直接将纯 Transformer 应用于图像块序列也能在图像分类任务中表现出色。当使用大量数据进行预训练并迁移到多个中小型图像识别基准数据集(ImageNet、CIFAR-100、VTAB等)时,**Vision Transformer**(ViT)与最
2026-03-29 17:14:37
34
原创 如何将 AlphaAvatar 链接到 WhatsApp
本文介绍了如何将 AlphaAvatar 通过 Channel 架构接入 WhatsApp,实现从 Playground 到真实通信场景的跨越。我们将深入解析 AlphaAvatar 的 Runtime、Bridge 与 Driver 解耦设计,并通过 Baileys Driver 实现 WhatsApp 消息的完整链路接入,包括消息接收、路由转发以及 Agent 自动回复。同时,文章也总结了当前开发阶段的关键问题与后续规划,帮助开发者快速理解并构建属于自己的多通道 Avatar 系统。
2026-03-23 00:45:15
411
翻译 Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting翻译
有监督微调 (SFT) 是领域自适应的标准范式,但它常常导致灾难性遗忘。与之形成鲜明对比的是,on-policy Reinforcement Learning (RL) 能够有效地保留通用能力。**我们研究了这种差异,并发现了一个根本性的分布差距:RL 遵循模型的内部信念,而 SFT 则迫使模型适应外部监督**。这种不匹配通常表现为“**Confident Conflicts**”——即概率低但熵低的 token。在这种情况下,模型对其预测结果非常自信,但却被迫学习一个发散的真实值,从而触发破坏性的梯度更新
2026-03-23 00:19:37
62
翻译 DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models翻译
在大语言模型时代,混合专家(MoE)架构在模型参数扩展时,是一种管理计算成本的有效方法。然而,传统的混合专家架构(例如 GShard)从 $N$ 个专家中激活排名 $top-K$ 的专家,**在确保专家专业化方面面临挑战,即每个专家获取的知识不重叠且具有针对性**。为此,我们提出了 DeepSeekMoE 架构,旨在实现极致的专家专业化。该架构包含两个主要策略:(1)将专家精细划分为 $mN$ 个专家,并从中激活 $mK$ 个专家,从而实现更灵活的专家组合;(2)将 $K$ 个专家隔离为共享专家,旨在捕获共
2026-03-21 04:05:04
77
翻译 DeepSeek-OCR 2: Visual Causal Flow翻译
我们提出 DeepSeek-OCR 2,旨在研究一种新型编码器的可行性 — **DeepEncoder V2**。**该编码器能够根据图像语义动态地重新排列视觉 token**。传统的视觉语言模型(VLM)在将图像输入 LLM 时,总是以固定的位置编码,按照固定的光栅扫描顺序(从左上到右下)处理视觉 token。然而,这与人类视觉感知相悖。人类视觉感知遵循灵活但语义连贯的扫描模式,这种模式由其固有的逻辑结构驱动。尤其对于布局复杂的图像,人类视觉会表现出因果关系驱动的顺序处理能力。受此认知机制的启发,Deep
2026-03-15 16:44:40
54
翻译 RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents翻译
基于 LLM 的深度研究智能体大多构建于 ReAct 框架之上。这种**线性设计使得智能体难以重访先前的状态、分支到其他搜索方向或在长时间上下文中保持全局感知,这往往会导致局部最优解、冗余探索和低效搜索**。我们提出了 **Re-TRAC**,一个智能体框架,它通过在每条轨迹之后生成结构化的状态表示来进行跨轨迹探索,该状态表示总结了证据、不确定性、失败和未来计划,并将后续轨迹的生成基于此状态表示。这使得智能体能够进行迭代反思和全局信息规划,从而将研究重新定义为一个渐进的过程。实证结果表明,在 BrowseC
2026-03-15 16:36:12
62
翻译 Reflexion: Language Agents with Verbal Reinforcement Learning翻译
大语言模型(LLM)作为目标驱动型智能体,已被越来越多地用于与外部环境(例如游戏、编译器、API)进行交互。然而,由于传统的强化学习方法需要大量的训练样本和昂贵的模型微调,这些语言智能体难以快速高效地从试错中学习。我们提出了一种名为 **Reflexion** 的新型框架,它并非通过更新权重,而是通过语言反馈来强化语言智能体。具体来说,Reflexion 智能体会对任务反馈信号进行口头反思,并将反思文本保存在上下文记忆缓冲区中,从而在后续试验中做出更优的决策。Reflexion 具有足够的灵活性,可以整合各
2026-03-09 20:24:41
86
翻译 GLM-5: from Vibe Coding to Agentic Engineering翻译
摘要: GLM-5是新一代基础模型,通过智能体、推理和编码(ARC)能力提升,结合DSA降低训练成本并保持长上下文保真度。采用异步强化学习基础设施和新型算法,显著提升模型对齐与自主性。在多个基准测试中表现优异,如AI指数v4.0得分50分,开源模型首次达到此水平。GLM-5在长期任务(如Vending-Bench 2)中展现卓越规划能力,参数扩展至744B,训练token达28.5万亿。技术亮点包括动态稀疏注意力(DSA)、异步强化学习框架及针对中国GPU生态的全栈优化。代码与模型已开源:https://g
2026-03-08 19:22:48
324
翻译 DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models 翻译
我们推出了 DeepSeek-V3.2 模型,该模型兼顾了高计算效率、卓越的推理能力和智能体性能。DeepSeek-V3.2 的关键技术突破如下:(1) **DeepSeek Sparse Attention (DSA)**:我们引入了 DSA,这是一种高效的注意力机制,能够在长上下文场景下显著降低计算复杂度,同时保持模型性能。(2) **Scalable Reinforcement Learning Framework**:通过实现稳健的强化学习协议并扩展后训练的计算能力,DeepSeek-V3.2 的性
2026-03-02 16:09:47
120
翻译 Extending Claude’s capabilities with skills and MCP servers翻译
Skills与MCP协同构建智能工作流:MCP提供工具连接,Skills赋予操作知识。MCP负责安全访问外部系统(如Notion、GitHub),而Skills则定义工作流程(如会议准备、财务分析),确保结果一致性。二者结合可实现清晰的任务发现、可靠的多步骤编排和标准化输出。MCP适用于实时数据访问和系统操作,Skills则编码团队专业知识和工作流程。典型案例包括通过MCP连接财务数据源执行自动化估值,或使用Notion技能结构化会议材料。这种分工使单个技能可协调多个MCP连接,单个MCP也能支持多技
2026-02-22 18:58:33
55
翻译 Building agents with Skills: Equipping agents for specialized work翻译
摘要:文章探讨了人工智能代理(Agent)的发展趋势,从专业领域特定代理转向通用代理与专业技能(Skills)相结合的范式。随着Claude Code等通用编码代理的成熟,行业发现核心问题在于代理缺乏领域专业知识。Skills作为解决方案应运而生,它通过结构化文件集合打包领域知识,使通用代理能按需获取专业技能。文章详细介绍了Skills的三层架构、生态系统(基础技能、合作伙伴技能和企业技能)以及它们如何与MCP服务器协同工作。这种新架构将推理、执行、连接和指导功能明确分离,使系统更易扩展和维护,同时降低了非
2026-02-22 04:21:27
59
原创 在 AlphaAvatar 中接入 MCP:统一工具入口 + 并行调度的工程实践
AlphaAvatar项目通过MCP(Multi-Cloud Platform)插件实现了实时Agent的工具统一管理和并行调度优化。在数字人和多模态系统中,传统串行工具调用方式面临性能退化、响应延迟等问题。MCP作为工具编排中间件,为Agent提供单一入口,内部实现工具发现、参数校验、并行执行和结果聚合功能。这种设计显著降低了LLM决策压力,减少了延迟,同时避免了工具列表膨胀污染上下文。项目采用插件化架构,MCP与记忆、角色渲染等模块协同工作,构建了完整的Omni-Avatar系统。通过YAML配置即可快
2026-02-21 19:27:03
926
翻译 Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity翻译
在深度学习中,模型通常会对所有输入复用相同的参数。混合专家模型(MoE)打破了这一常规,其为每个输入样本选择不同的参数。其结果是形成了一个稀疏激活模型,尽管参数数量惊人,但计算成本却保持不变。然而,尽管 MoE 取得了一些显著的成功,但其广泛应用仍然受到复杂性、通信成本和训练不稳定性等问题的阻碍。我们通过引入 Switch Transformer 来解决这些问题。我们简化了 MoE 的路由算法,并设计了直观且改进的模型,从而降低了通信和计算成本。我们提出的训练技术缓解了不稳定性,并且首次证明了可以使用较低精
2026-02-21 18:31:55
95
翻译 AUXILIARY-LOSS-FREE LOAD BALANCING STRATEGY FOR MIXTURE-OF-EXPERTS翻译
对于混合专家(MoE)模型,**专家负载不均衡会导致路由崩溃或计算开销增加**。现有方法通常采用辅助损失来促进负载均衡,但**较大的辅助损失会在训练过程中引入不可忽略的干扰梯度,从而降低模型性能**。为了在训练过程中控制负载均衡而不产生不必要的梯度,我们提出了一种名为 **Loss-Free Balancing** 的策略,其特点是采用无辅助损失的负载均衡方法。具体来说,在做出 $top-K$ 个路由决策之前,Loss-Free Balancing 首先会根据每个专家的路由得分应用一个专家级偏差。通过根据每
2026-02-17 17:49:47
103
翻译 Reinforcement Learning via Self-Distillation翻译
大语言模型越来越多地在代码和数学等可验证领域中使用强化学习进行后训练。**然而,当前基于可验证奖赏的强化学习(RLVR)方法仅从每次尝试的标量结果奖赏中学习,这造成了严重的奖赏分配瓶颈**。许多可验证环境实际上提供了丰富的文本反馈,例如运行时错误或评估结果,这些反馈解释了尝试失败的原因。我们将这种设置形式化为具有**丰富反馈的强化学习**,并引入了 **Self-Distillation Policy Optimization (SDPO)**。SDPO 无需任何外部 teacher 或显式奖赏模型,即可将
2026-02-17 04:14:17
148
翻译 Recursive Language Models翻译
我们从推理时扩展的角度研究如何使大语言模型(LLM)能够处理任意长度的提示。我们提出了一种 **Recursive Language Models (RLMs)**,这是一种通用的推理范式,它将长提示视为外部环境的一部分,并允许 LLM 以编程方式检查、分解提示片段,并递归调用自身。我们发现,RLM 能够成功处理超出模型上下文窗口两个数量级的输入,即使对于较短的提示,在四个不同的长上下文任务中,其性能也显著优于传统的前沿 LLM 和常见的长上下文支架,而成本却相当。在小规模实验中,我们对第一个原生递归语言模
2026-02-10 02:53:56
109
翻译 KIMI K2.5: VISUAL AGENTIC INTELLIGENCE翻译
我们推出了 Kimi K2.5,这是一个开源的多模态 Agent 模型,旨在提升通用智能体的性能。K2.5 强调文本和视觉的联合优化,使两种模态相互增强。这包括一系列技术,例如联合文本-视觉预训练、零视觉 SFT 和联合文本-视觉强化学习。基于这种多模态基础,K2.5 引入了 Agent Swarm,这是一个自导向的并行智能体编排框架,能够动态地将复杂任务分解为异构子问题并并行执行。大量的评估表明,Kimi K2.5 在编码、视觉、推理和智能体任务等多个领域均取得了最先进的成果。与单智能体基线模型相比,Ag
2026-02-08 18:29:41
228
翻译 OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation翻译
基于大语言模型(LLM)的多智能体系统在自动化现实世界任务方面展现出巨大潜力,但由于其领域特定性,难以跨领域迁移。现有方法面临两大关键缺陷:应用于新领域时,需要对所有组件进行完全的架构重新设计和重新训练。我们提出了 **WORKFORCE**,一个分层多智能体框架,它通过模块化架构将策略规划与专门执行解耦,该架构包含:(i)一个与领域无关的 **Planner**,用于任务分解;(ii)一个 **Coordinator**,用于子任务管理;以及(iii)具有领域特定工具调用能力的专用 **Workers**
2026-02-01 02:40:05
121
翻译 Group Sequence Policy Optimization翻译
本文介绍了一种稳定、高效且性能优异的强化学习算法——组序列策略优化(GSPO),用于训练大语言模型。与以往采用 token 级重要性比率的算法不同,GSPO 基于**序列似然**定义重要性比率,并执行序列级裁剪、奖赏和优化。我们证明,与 GRPO 算法相比,GSPO 具有更高的训练效率和性能,显著提高了混合专家(MoE)强化学习训练的稳定性,并有望简化强化学习基础设施的设计。GSPO 的这些优势促成了最新 Qwen3 模型性能的显著提升。
2026-02-01 02:35:19
65
翻译 DeepSeek-R1 v2翻译
通用推理一直是人工智能领域长期存在的艰巨挑战。近年来,以大语言模型(LLM)和思维链提示为代表的突破性进展,在基础推理任务上取得了显著成效。然而,这些成功很大程度上依赖于大量的人工标注示例,模型的能力对于更复杂的问题仍然不足。本文表明,可以通过纯强化学习(RL)激励 LLM 的推理能力,从而无需人工标注推理轨迹。所提出的 RL 框架促进了高级推理模式的涌现式发展,例如自我反思、验证和动态策略适应。因此,训练后的模型在数学、编程竞赛和 STEM 领域等**可验证任务**上取得了优异的性能,超越了通过传统有监督
2026-01-26 02:26:26
100
翻译 ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory翻译
随着大语言模型 Agent 在现实世界中扮演持续性角色并得到日益广泛的应用,它们自然会遇到源源不断的任务流。然而,一个关键的局限性在于它们无法从累积的交互历史中学习,这迫使它们舍弃宝贵的洞察并重复过去的错误。**我们提出了一种名为 ReasoningBank 的新型记忆框架,它从智能体自我判断的成功和失败经验中提炼出可泛化的推理策略**。在测试阶段,Agent 从 ReasoningBank 中检索相关记忆以指导其交互,然后将新的学习成果整合回记忆库,从而随着时间的推移不断提升自身能力。基于这种强大的经验学
2026-01-18 18:39:24
106
翻译 Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models翻译
本文介绍了 Qwen3 Embedding 系列,该系列基于 Qwen3 基础模型构建,在文本嵌入和重排序能力方面较其前身 GTE-Qwen 系列有了显著提升。Qwen3 充分利用了 Qwen3 LLM 在多语言文本理解和生成方面的强大能力,**我们创新的多阶段训练流程将大规模无监督预训练与高质量数据集上的有监督微调相结合**。有效的模型融合策略进一步确保了 Qwen3 Embedding 系列的鲁棒性和适应性。在训练过程中,Qwen3 LLM 不仅作为骨干模型,还在跨多个领域和语言合成高质量、丰富且多样化
2026-01-18 18:29:56
96
翻译 KIMI LINEAR: AN EXPRESSIVE, EFFICIENT ATTENTION ARCHITECTURE翻译
我们提出了 Kimi Linear,一种混合线性注意力架构。该架构首次在各种场景(包括短上下文、长上下文和强化学习 (RL) 扩展机制)的公平比较中超越了完全注意力机制。其核心是 Kimi Delta Attention (KDA),这是一个表达力强的线性注意力模块,它通过更细粒度的门控机制扩展了 Gated DeltaNet,从而能够更有效地利用有限的有限状态 RNN 内存。我们定制的分块算法通过 Diagonal-Plus-Low-Rank (DPLR) 转移矩阵的特殊变体实现了高硬件效率,与通用
2026-01-11 19:13:40
250
空空如也
VC++中如何实现office中通过文件菜单打开命令,在试图中显示文本内容并且可以编辑?
2015-06-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅