自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(523)
  • 问答 (1)
  • 收藏
  • 关注

翻译 Qwen2.5-VL Technical Report翻译

我们隆重推出 Qwen 视觉语言系列的最新旗舰型号 Qwen2.5-VL,它在基础功能和创新特性方面均实现了显著提升。Qwen2.5-VL 通过增强的视觉识别、精准的物体定位、强大的文档解析和长视频理解能力,在理解和与世界互动方面取得了重大突破。Qwen2.5-VL 的一个突出特点是能够使用边界框或点精确定位物体。它能够从发票、表单和表格中提取强大的结构化数据,并对图表、示意图和布局进行详细分析。为了处理复杂的输入,Qwen2.5-VL 引入了动态分辨率处理和绝对时间编码,使其能够处理不同尺寸的图像和长达数

2025-12-07 19:03:23 22

翻译 PIXELCRAFT: A MULTI-AGENT SYSTEM FOR HIGH-FIDELITY VISUAL REASONING ON STRUCTURED IMAGES翻译

结构化图像(例如图表和几何图形)对多模态大语言模型(MLLM)而言仍然是一个挑战,因为感知偏差可能导致错误的结论。中间视觉线索可以引导推理;然而,现有的基于线索的方法受限于低保真度的图像处理和线性、僵化的推理模式,限制了它们在复杂结构化图像任务上的有效性。本文提出了一种名为 **PixelCraft** 的新型多 Agent 系统,用于对结构化图像进行高保真度图像处理和灵活的视觉推理。**该系统包含调度器、规划器、推理器、评估器和一组视觉工具智能体**。为了实现高保真度处理,我们构建了一个高质量的语料库,并

2025-12-07 18:52:31 17

翻译 A Survey of Vibe Coding with Large Language Models翻译

大语言模型(LLM)的进步推动了辅助代码生成到自主编码 Agent 的范式转变,催生了一种名为“Vibe Coding”的新型开发方法。**在这种方法中,开发者通过观察结果而非逐行理解代码来验证人工智能生成的实现**。尽管Vibe Coding具有变革性的潜力,但其有效性仍未得到充分探索。实证研究表明,该方法会导致意想不到的生产力损失,并在人机协作方面面临根本性挑战。为了弥补这一空白,本综述首次对基于大语言模型的Vibe Coding进行了全面系统的回顾,为这种变革性的开发方法建立了理论基础和实践框架。通过

2025-12-02 18:35:57 48

翻译 DeepSeek-OCR: Contexts Optical Compression翻译

我们提出 DeepSeek-OCR,作为对利用光学二维映射压缩长上下文可行性的初步探索。DeepSeek-OCR 由两个组件构成:DeepEncoder 和解码器 DeepSeek3B-MoE-A570M。具体而言,DeepEncoder 作为核心引擎,旨在高分辨率输入下保持较低的激活值,同时实现高压缩比,从而确保视觉 token 数量达到最优且易于管理。**实验表明,当文本 token 数量在视觉 token 数量的 10 倍以内(即压缩比 < 10×)时,该模型可以达到 97% 的解码(OCR)精度。即

2025-12-02 18:33:58 25

翻译 Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution翻译

我们推出了 Qwen2-VL 系列,它是对先前 Qwen-VL 模型的升级,重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL 引入了朴素**动态分辨率**机制,使模型能够动态地将不同分辨率的图像处理成不同数量的视觉 token。这种方法使模型能够生成更高效、更精确的视觉表征,与人类的感知过程更加契合。该模型还集成了**多模态旋转位置嵌入 (M-RoPE)**,从而有效地融合了文本、图像和视频中的位置信息。我们采用统一的范式来处理图像和视频,增强了模型的视觉感知能力。为了探索大型多模态模型的潜力,Q

2025-12-02 18:23:30 20

翻译 Binary Classifier Optimization for Large Language Model Alignment翻译

通过偏好优化将大语言模型 (LLM) 与人类偏好对齐至关重要,但却十分耗时费力,需要评估者对每个提示的接受文本补全和拒绝文本补全进行比较。最近,Kahneman-Tversky 优化 (KTO) 证明,LLM 仅需在每个提示-补全对上使用二元“点赞”或“踩”信号即可进行对齐。本文提出了解释通过这些二元信号实现成功对齐的理论基础。我们的分析揭示了一个新的视角:优化一个以 logit 为奖赏的二元分类器,隐式地实现了直接偏好优化 (DPO) 损失的最小化。在这一发现过程中,我们确定了两种有效的对齐技术:奖赏偏移

2025-11-23 20:28:18 48

翻译 EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test翻译

现代 LLM 的顺序特性导致其计算成本高昂且速度缓慢,而推测性采样已被证明是解决这一问题的有效方案。诸如 EAGLE 之类的方法在特征层执行自回归,通过重用目标模型中的顶层特征来获得比传统推测性采样更好的结果。**LLM 领域的一个发展趋势是扩展训练数据以在不增加推理成本的情况下提升模型智能**。然而,我们观察到,扩展数据对 EAGLE 的改进有限。我们发现,这种限制源于 EAGLE 的特征预测约束。在本文中,我们提出了 EAGLE-3,它放弃了特征预测,转而采用直接 token 预测,并通过一种名为训练时

2025-11-23 19:54:39 84

翻译 EgoMem: Lifelong Memory Agent for Full-duplex Omnimodal Models翻译

我们推出了 EgoMem,这是首个专为处理实时全模态流的全双工模型量身定制的终身记忆 Agent。EgoMem 使实时模型能够直接从原始视听流中识别多个用户,提供个性化响应,并长期保存从视听历史中提取的用户信息、偏好和社交关系。**EgoMem 通过三个异步进程运行**:(i)检索进程,通过面部和语音动态识别用户,并从长期记忆中收集相关上下文;(ii)全模态对话进程,基于检索到的上下文生成个性化音频响应;以及(iii)记忆管理进程,自动从全模态流中检测对话边界,并提取必要信息以更新长期记忆。与现有的终身学习

2025-11-16 19:28:20 56

翻译 MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture, Data, and Training Recipes翻译

多模态大语言模型(MLLM)发展迅猛,代表着人工智能发展的前沿。然而,其训练和推理效率已成为制约 MLLM 普及和扩展的核心瓶颈。为了应对这些挑战,我们提出了MiniCPM-V 4.5,一个旨在实现高效高性能的 8B 参数模型。我们在模型架构、数据策略和训练方法方面进行了三项核心改进:统一的 3D 重采样器模型架构,用于对图像和视频进行高度紧凑的编码;统一的学习范式,无需繁重的数据工程即可实现文档知识和文本识别;以及混合强化学习策略,以提升模型在短推理和长推理模式下的熟练度。OpenCompass 评估的综

2025-11-16 19:20:19 78

翻译 Improving Large Language Models with Concept-Aware Fine-Tuning翻译

大语言模型(LLM)已成为现代人工智能的基石。然而,现有的逐 token 预测范式从根本上限制了它们形成连贯的高级概念的能力,使其成为实现类人理解和推理的关键障碍。以短语“ ribonucleic acid ”为例:LLM 首先会将其分解为 token,即人工文本片段(“rib”→“on”→……),然后按顺序学习每个 token,而不是将整个短语理解为一个统一的、连贯的语义实体。这种碎片化的表示阻碍了更深层次的概念理解,并最终阻碍了真正智能系统的开发。为此,我们提出了 **Concept-Aware Fin

2025-11-09 19:51:31 54

翻译 Data Efficacy for Language Model Training翻译

数据是语言模型 (LM) 训练的基础。近期的研究致力于数据效率,旨在通过选择最小或最优的训练数据子集来最大化性能。数据过滤、采样和选择等技术在这一领域发挥着至关重要的作用。为了补充数据效率,我们定义了“**Data Efficacy**”,它侧重于通过优化**训练数据的组织**来最大化性能,目前这一领域仍未得到充分探索。本文提出了一个通用范式 DELT,用于在语言模型训练中考虑数据效能,并强调了训练数据组织的重要性。DELT 包含三个部分:数据评分、数据选择和数据排序。数据评分根据每个数据样本的属性(例如质

2025-11-09 19:43:13 42

翻译 DAPO: An Open-Source LLM Reinforcement Learning System at Scale翻译

诸如 OpenAI 的 o1 和 DeepSeek 的 R1 等测试时扩展技术,为大语言模型 (LLM) 带来了深刻的范式转变。测试时扩展技术能够支持更长的思维链,并诱导出更复杂的推理行为,这使得这些模型在 AIME 和 Codeforces 等数学和编程竞赛任务中表现优异。推动这场变革的核心技术是大规模强化学习(RL),它能够激发诸如自我验证和迭代改进等复杂的推理行为。然而,可扩展 RL 训练的实际算法和关键方法仍然是个谜,在现有推理模型的技术报告中鲜有提及。

2025-11-02 20:54:19 64

翻译 Router-R1: Teaching LLMs Multi-Round Routing and Aggregation via Reinforcement Learning翻译

各种大语言模型 (LLM) 的迅速涌现,推动了 LLM 路由器的发展,这些路由器能够将用户问题分配给最合适的模型。然而,现有的 LLM 路由器通常执行单轮一对一映射(即将每个问题单独分配给单个模型),这限制了它们处理需要多个 LLM 互补优势的复杂任务的能力。本文提出了 **Router-R1**,这是一个基于强化学习 (RL) 的框架,它将多 LLM 的路由和聚合构建为一个顺序决策过程。**Router-R1 将路由器本身实例化为一个功能强大的 LLM,利用其推理能力将“思考”操作(内部审议)与“路由”操

2025-10-26 18:15:27 56

翻译 Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory翻译

尽管当前的语言模型 (LM) 在复杂任务上表现出色,但它们通常运行于 vacuum 状态:每个输入 query 都被单独处理,无法保留来自先前尝试的思考结果。在此,我们提出了 **Dynamic Cheatsheet (DC)**,这是一个轻量级框架,它赋予黑盒语言模型 (LM) 持久且不断发展的记忆。DC 使模型能够在推理时存储和重用累积的策略、代码片段和通用的解决问题的观点,而无需反复重新发现或提交相同的解决方案和错误。这种测试时学习无需明确的真实标签或人工反馈,即可显著提升一系列任务的性能。利用 DC

2025-10-26 18:11:07 88

翻译 Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models翻译

大语言模型 (LLM) 应用(例如 Agent 和领域特定推理)越来越依赖于上下文自适应——使用指令、策略或证据修改输入,而不是更新权重。先前的方法虽然提高了可用性,但常常受到简洁性偏差的影响,这会为了简洁的摘要而牺牲领域洞察力;此外,上下文崩溃也会导致迭代重写随着时间的推移而侵蚀细节。**基于 Dynamic Cheatsheet 引入的自适应记忆,我们引入了 ACE(Agent 上下文工程),该框架将上下文视为不断发展的剧本,通过模块化的生成、反思和整理流程来积累、完善和组织策略**。ACE 通过结构化

2025-10-19 20:00:05 91

翻译 Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models翻译

我们推出了 Audio Flamingo 3 (AF3),这是一个完全开放的、最先进的大型音频语言模型,旨在提升语音、声音和音乐的推理和理解能力。AF3 引入了以下功能:(i) **AF-Whisper**,这是一个统一的音频编码器,采用一种新的策略进行训练,以实现语音、声音和音乐三种模态的联合表征学习;(ii) **flexible, on-demand thinking**,允许模型在回答问题前进行思路链式推理;(iii) 多轮多音频聊天;(iv) 长达 10 分钟的长音频理解和推理(包括语音);以及

2025-10-19 19:51:09 90

翻译 Metacognitive Reuse: Turning Recurring LLM Reasoning Into Concise Behaviors翻译

大语言模型 (LLM) 现在通过生成扩展的思维链来解决多步骤问题。在此过程中,它们通常会在给定的每个问题内重新推导相同的中间步骤,从而增加 token 使用量和延迟。**上下文窗口的这种饱和会减少探索的能力**。我们研究了一种简单的机制,该机制通过模型自身对先前轨迹的**元认知分析**,将重复的推理片段转换为简洁、可重复使用的“行为” (name + instruction)。这些行为存储在“**行为手册**”中,该手册在推理时将它们提供给上下文中的模型,或通过有监督微调将它们提炼为参数。这种方法在三种不同

2025-10-12 18:16:52 42

翻译 Efficient Training of Language Models to Fill in the Middle翻译

我们证明,在对数据集进行简单的转换(即简单地将一段文本从文档中间移到末尾)后,自回归语言模型可以学习填充文本。虽然这种数据增强近年来引起了广泛关注,但我们提供了大量证据表明,使用大量以这种方式转换的数据来训练模型,不会损害其原有的从左到右的生成能力,这一点已通过困惑度和在广泛尺度上的采样评估来衡量。鉴于训练模型进行中间填充 (FIM) 的实用性、简便性和效率,我们建议未来的自回归语言模型默认使用 FIM 进行训练。为此,我们对关键超参数(例如数据转换频率、转换结构以及填充跨度的选择方法)进行了一系列消融。我

2025-10-12 18:11:48 73

翻译 NV-EMBED: IMPROVED TECHNIQUES FOR TRAINING LLMS AS GENERALIST EMBEDDING MODELS翻译

基于大语言模型 (LLM) 的嵌入模型在通用文本嵌入任务(包括基于密集向量的检索)中的表现开始超越基于 BERT 或 T5 的嵌入模型。本文介绍了 **NV-Embed** 模型,引入了新的架构设计、训练流程和精选数据集,显著提升了 LLM 作为通用嵌入模型的性能,同时保持了其简单性和可复现性。在模型架构方面,我们提出了一个潜在注意力层来获取池化嵌入,与均值池化或使用 LLM 中的最后一个 $\text{<EOS>}$ token 嵌入相比,该层能够持续提升检索和下游任务的准确率。为了增强表示学习,我们在对

2025-10-04 14:26:07 74

翻译 Visual Instruction Tuning翻译

使用机器生成的指令遵循数据对大语言模型 (LLM) 进行指令微调已被证明能够提升其在新任务上的零样本能力,但在多模态领域,这一思路的探索较少。**我们首次尝试使用纯语言的 GPT-4 生成多模态语言图像指令遵循数据**。通过对此类生成的数据进行指令微调,我们推出了 **LLaVA**: **L**arge **L**anguage **a**nd **V**ision **A**ssistant,这是一个端到端训练的大型多模态模型,它连接视觉编码器和 LLM,用于通用的视觉和语言理解。为了促进未来对视觉指

2025-09-20 00:56:04 79

翻译 Better & Faster Large Language Models via Multi-token Prediction翻译

大语言模型(例如 GPT 和 Llama)在训练时会引入下一个 token 预测损失。在本研究中,我们提出训练语言模型一次性预测多个未来 token 可以提高样本效率。更具体地说,在训练语料的每个位置,我们要求模型使用 n 个独立的输出头(在共享模型主干上运行)预测接下来的 n 个 token。将多 token 预测视为辅助训练任务,我们测量了代码和自然语言模型在不增加训练时间的情况下提升的下游能力。该方法在模型规模较大时越来越有用,并且在多轮训练中也保持了其吸引力。在编码等生成基准测试中,我们的模型表现尤

2025-09-14 18:10:52 150

翻译 Language-Image Alignment with Fixed Text Encoders翻译

目前,建立语言-图像对齐的最主要方法是通过对比学习联合预训练文本和图像编码器,例如 CLIP 及其变体。在本研究中,我们质疑这种成本高昂的联合训练是否必要。具体而言,我们探究预训练的固定大语言模型 (LLM) 是否能够提供足够好的文本编码器来指导视觉表征学习。也就是说,我们提出通过仅训练图像编码器,使用来自 LLM 的 **L**anguage-**I**mage alignment with a **F**ixed **T**ext encoder (**LIFT**)。令人惊讶的是,通过全面的基准测试和

2025-09-14 18:04:56 115

翻译 Qwen-VL翻译

在本研究中,我们推出了 Qwen-VL 系列,这是一组大规模视觉语言模型 (LVLM),旨在感知和理解文本和图像。以 Qwen-LM 为基础,我们通过精心设计的 (i) 视觉感知器、(ii) 输入输出接口、(iii) 三阶段训练流程以及 (iv) 多语言多模态清洗语料库赋予其视觉能力。除了传统的图像描述和问答功能外,我们还通过对齐图像-标题-框三元组实现了 Qwen-VL 的语义基础和文本阅读能力。由此产生的模型,包括 Qwen-VL 和 Qwen-VL-Chat,在一系列以视觉为中心的基准测试(例如,图像

2025-09-09 02:32:18 229

翻译 COAT: COMPRESSING OPTIMIZER STATES AND ACTIVATION FOR MEMORY-EFFICIENT FP8 TRAINING翻译

FP8 训练已成为一种提升训练效率的有前景的方法。**现有框架通过将 FP8 计算应用于线性层来加速训练,同时保持优化器状态和激活的精度更高,但这无法完全优化内存使用**。本文介绍了 COAT(**C**ompressing **O**ptimizer States and **A**ctivations for FP8 **T**raining),这是一种新的 FP8 训练框架,旨在显著减少训练大模型时的内存占用。COAT 通过两项关键创新解决了当前的局限性:(1) **动态范围扩展**,使优化器状态分布

2025-09-09 02:31:59 85

翻译 GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models翻译

我们推出 GLM-4.5,这是一个开源的**混合专家 (MoE) 大语言模型**,总参数量达 355B,激活参数量达 32B,采用**混合推理**方法,支持思考和直接响应模式。通过对 23T 语料进行多阶段训练,并结合专家模型迭代和强化学习进行全面的后训练,GLM-4.5 在 Agent、推理和编码 (ARC) 任务中取得了优异的表现,在 TAU-Bench 上得分高达 70.1%,在 AIME 24 上得分高达 91.0%,在 SWE-bench Verified 上得分高达 64.2%。GLM-4.5

2025-09-02 00:13:42 141

翻译 Seeing, Listening, Remembering, and Reasoning: A Multimodal Agent with Long-Term Memory翻译

我们推出 **M3-Agent**,一个配备长期记忆的新型多模态 Agent 框架 (**m**ulti**m**odal agent framework equipped with long-term **m**emory)。与人类一样,M3-Agent 能够处理实时视觉和听觉输入,从而构建和更新其长期记忆。除了情景记忆之外,它还能发展语义记忆,使其能够随着时间的推移积累世界知识。它的记忆以实体为中心的多模态格式组织,从而能够更深入、更一致地理解环境。在指令下,M3-Agent 能够自主执行多轮迭代推理,

2025-09-02 00:02:40 192

翻译 Sigmoid Loss for Language Image Pre-Training翻译

我们提出了一种简单的成对 Sigmoid 损失函数,用于语言-图像预训练 (SigLIP)。与采用 Softmax 归一化的标准对比学习不同,Sigmoid 损失函数仅作用于图像-文本对,无需全局考察成对相似性即可进行归一化。Sigmoid 损失函数同时支持进一步扩大 batch 大小,并在较小 batch size 下表现更佳。结合 **Locked-image Tuning** 功能,我们仅使用四块 TPUv4 芯片,便在两天内训练出了一个 SigLiT 模型,该模型在 ImageNet 零样本准确率上

2025-08-25 14:21:42 255

翻译 WebWatcher: Breaking New Frontiers of Vision-Language Deep Research Agent翻译

诸如 Deep Research 之类的网络 Agent 已展现出超越人类的认知能力,能够解决极具挑战性的信息搜索问题。然而,大多数研究仍然主要以文本为中心,忽视了现实世界中的视觉信息。这使得多模态 Deep Research 极具挑战性,因为与基于文本的 Agent 相比,此类 Agent 需要在感知、逻辑、知识以及使用更复杂工具方面拥有更强大的推理能力。为了突破这一限制,我们推出了 **WebWatcher**,一个用于 Deep Research 的多模态 Agent,它配备了增强的视觉语言推理能力。

2025-08-25 14:19:06 239

翻译 Learning Transferable Visual Models From Natural Language Supervision翻译

目前最先进的计算机视觉系统训练的目的是预测一组提前预定义的固定的类别对象。这种受限的监督形式限制了它们的通用性和可用性,因为需要额外的标注数据来指定任何其他视觉概念。直接从原始文本中学习图像是一种很有前景的替代方案,它可以利用更广泛的监督来源。我们证明了,**预测哪个标题与哪个图像匹配的简单预训练任务是一种高效且可扩展的方法**,可以从互联网上收集的 4 亿对(图像、文本)数据集上从头开始学习 SOTA 图像表征。预训练后,使用自然语言引用已学习的视觉概念(或描述新的视觉概念),从而实现模型向下游任务的**

2025-08-17 18:31:55 84

翻译 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning翻译

我们介绍了第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习 (RL) 训练的模型,无需预先进行有监督微调 (SFT),展现出卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然而然地展现出许多强大而有趣的推理行为。然而,它面临着诸如可读性差、语言混合等挑战。为了解决这些问题并进一步提升推理性能,我们推出了 DeepSeek-R1,它在强化学习之前结合了多阶段训练和冷启动数据。DeepSeek-R1 在推理

2025-08-16 17:39:17 164

翻译 WebSailor: Navigating Super-human Reasoning for Web Agent翻译

超越人类认知局限是 LLM 训练的关键目标。像 DeepResearch 这样的专有 Agent 系统,在极其复杂的信息搜索基准测试(例如 BrowseComp)上展现出了超越人类的能力,这在以前是难以企及的。我们认为,**它们的成功取决于开源模型所缺乏的一种复杂推理模式:在探索浩瀚信息时,系统地降低极端不确定性的能力**。基于这一洞见,我们推出了 **WebSailor**,这是一种旨在培养这一关键能力的完整后训练方法。我们的方法包括通过结构化采样和信息混淆、RFT 冷启动以及高效的 Agent 强化学习

2025-08-09 02:26:23 1878

翻译 gpt-oss-120b & gpt-oss-20b Model Card翻译

我们推出了 gpt-oss-120b 和 gpt-oss-20b,这两个开放权重推理模型遵循 Apache 2.0 许可证和我们的 gpt-oss 使用政策。这些纯文本模型是根据开源社区的反馈开发的,与我们的 Responses API 兼容,旨在用于具有强大指令遵循能力的 Agent 工作流中,支持网页搜索和 Python 代码执行等工具,并具备推理能力——包括**能够针对不需要复杂推理的任务调整推理力度**。这些模型可定制,提供完整的思维链 (CoT),并支持结构化输出。

2025-08-09 02:24:38 877

翻译 FLOW MATCHING FOR GENERATIVE MODELING翻译

我们引入了一种基于 Continuous Normalizing Flows (CNF) 的生成建模新范式,使我们能够以前所未有的规模训练 CNF。具体而言,我们提出了 Flow Matching (FM) 的概念,这是一种无需模拟的 CNF 训练方法,该方法基于固定条件概率路径的回归矢量场。Flow Matching 与一类通用的高斯概率路径兼容,用于在噪声和数据样本之间进行转换——**这将现有的扩散路径归纳为特定实例**。有趣的是,我们发现将 FM 与扩散路径结合使用,可以为训练扩散模型提供一种更稳健、

2025-08-03 19:13:33 354

翻译 A Comprehensive Survey of Deep Research: Systems, Methodologies, and Applications翻译

本综述探讨了快速发展的 Deep Research 系统领域——由人工智能驱动的应用程序,通过集成大语言模型、高级信息检索和自主推理功能,实现复杂研究工作流程的自动化。我们分析了自2023年以来出现的80多个商业和非商业实现,包括OpenAI/DeepResearch、Gemini/DeepResearch、Perplexity/DeepResearch以及众多开源替代方案。通过全面的研究,我们提出了一种新的层次化分类法,该分类法根据四个基本技术维度对系统进行分类:(1)基础模型和推理引擎、(2)工具利用和

2025-08-02 03:39:17 686 1

翻译 Qwen2.5-Omni Technical Report翻译

在本报告中,我们介绍了 Qwen2.5-Omni,这是一个端到端的多模态模型,**旨在感知多种模态,包括文本、图像、音频和视频**,同时以流式传输的方式生成文本和自然语音响应。为了实现多模态信息输入的流式传输,音频和视觉编码器均采用了分块处理方法。该策略有效地解耦了长序列多模态数据的处理,**将感知任务分配给多模态编码器,并将扩展序列的建模委托给大语言模型**。这种分工通过共享注意力机制增强了不同模态的融合。**为了同步视频输入和音频的时间戳,我们以交错的方式按顺序组织音频和视频**,并提出了一种新的位置嵌

2025-07-26 22:33:23 359

翻译 BOND: Aligning LLMs with Best-of-N Distillation翻译

基于人类反馈的强化学习 (RLHF) 是推动 SOTA 大语言模型质量和安全的关键因素。然而,一个出人意料地简单且强大的推理时策略是 Best-of-N 采样,它可以从 $N$ 个候选样本中选出最佳生成结果。本文提出了 Best-of-N 蒸馏 (BOND),这是一种新的 RLHF 算法,旨在模拟 Best-of-N,但在推理时不会产生显著的计算开销。具体而言,BOND 是一种分布匹配算法,它**强制策略中的生成分布更接近 Best-of-N 分布**。我们使用 Jeffreys 散度(前向和后向 KL 的

2025-07-24 15:54:44 141

翻译 How we built our multi-agent research system翻译

  Claude 现在拥有 Research 能力,可以跨网络、Google Workspace 和任何集成进行搜索,以完成复杂的任务。  这个多智能体系统从原型到生产的历程,教会了我们关于系统架构、工具设计和提示工程的重要经验。多智能体系统由多个智能体(LLM)组成,它们以循环的方式自主使用工具。我们的 Research 功能包含一个智能体,它会根据用户查询规划研究流程,然后使用工具创建并行智能体,同时搜索信息。多智能体系统在智能体的协调、评估和可靠性方面带来了新的挑战。  这篇文章分解了对我们有用的

2025-07-19 20:06:13 178

翻译 Understanding R1-Zero-Like Training: A Critical Perspective翻译

DeepSeek-R1-Zero 已证明,大规模强化学习 (RL) 无需有监督微调即可直接提升 LLM 的推理能力。本研究通过分析其两个核心组件:基础模型和强化学习 (RL),对类似 R1-Zero 的训练进行了批判性研究。我们研究了包括 DeepSeek-V3-Base 在内的多种基础模型,以了解预训练特性如何影响 RL 性能。分析表明,DeepSeek-V3-Base 已展现出“顿悟时刻”,而 Qwen2.5 基础模型即使在没有提示模板的情况下也展现出强大的推理能力,这表明预训练可能存在偏差。此外,我们

2025-07-18 03:10:51 231

翻译 E^2GraphRAG: Streamlining Graph-based RAG for High Efficiency and Effectiveness翻译

诸如 GraphRAG 之类的基于图的 RAG 方法通过构建分层实体图,展现出对知识库的良好全局理解。然而,它们通常效率低下且依赖于手动预定义的查询模式,从而限制了实际应用。在本文中,我们提出了E2GraphRAGE 2 GraphRAG,这是一个简化的基于图的 RAG 框架,可同时提高效率和效果。在索引阶段,E2GraphRAGE 2 GraphRAG 使用大语言模型构建摘要树,并使用基于文档块的 SpaCy 构建实体图。然后,我们在实体和块之间构建双向

2025-07-15 03:20:37 203

翻译 LENGTH DESENSITIZATION IN DIRECT PREFERENCE OPTIMIZATION翻译

直接偏好优化 (DPO) 广泛应用于人类反馈强化学习 (RLHF) 阶段,旨在使大语言模型 (LLM) 与人类偏好保持一致,从而提升其无害性和有效性。然而,研究发现,DPO 倾向于过度优化冗长性,这会对性能和用户体验产生不利影响。本文对 DPO 的优化目标进行了深入的理论分析,揭示了其隐式奖赏与数据长度之间的强相关性。这种相关性会误导优化方向,导致 DPO 训练过程中出现长度敏感性,最终导致冗长性。为了解决这个问题,我们提出了一种 DPO 的长度脱敏改进方法,称为 LD-DPO。该方法旨在通过将相对不重要的

2025-07-12 18:14:12 153

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除