- 博客(478)
- 问答 (1)
- 收藏
- 关注
翻译 Qwen3 Technical Report翻译
追求通用人工智能 (AGI) 或超级人工智能 (ASI) 一直是人类的共同目标。大型基础模型(例如 GPT-4o、Claude 3.7、Gemini 2.5、DeepSeek-V3、Llama-4 和 Qwen2.5)的最新进展,已证明在这一目标上取得了显著进展。这些模型基于涵盖不同领域和任务的数万亿个 token 的海量数据集进行训练,有效地将人类的知识和能力提炼为参数。
2025-06-05 04:45:11
18
翻译 SCALEMCP: DYNAMIC AND AUTO-SYNCHRONIZING MODEL CONTEXT PROTOCOL TOOLS FOR LLM AGENTS翻译
大语言模型 (LLM) 的最新进展以及模型上下文协议 (MCP) 的引入显著扩展了 LLM Agent与外部工具和 API 动态交互的能力。然而,现有的**工具选择框架并未集成 MCP 服务器**,而是严重依赖于对单体本地工具库进行容易出错的手动更新,从而导致重复、不一致和效率低下。此外,当前方法在调用 LLM Agent 之前抽象工具选择,这限制了其自主性,并阻碍了其在多轮交互过程中的动态重新查询能力。为了解决这些问题,我们引入了 **ScaleMCP**,这是一种**新的工具选择方法**,它动态地为 L
2025-06-02 21:50:19
28
翻译 OMNICHAT: ENHANCING SPOKEN DIALOGUE SYSTEMS WITH SCALABLE SYNTHETIC DATA FOR DIVERSE SCENARIOS翻译
随着大语言模型的快速发展,研究人员创建了日益先进的语音对话系统,能够自然地与人类对话。然而,这些系统仍然难以处理现实世界对话的全部复杂性,包括音频事件、音乐语境和情感表达,这主要是因为当前的对话数据集在规模和场景多样性方面都受到限制。在本文中,我们提出利用合成数据来增强不同场景下的对话模型。我们推出了 **ShareChatX**,这是第一个涵盖多种场景的全面、大规模语音对话数据集。基于此数据集,我们推出了 **OmniChat**,这是一个具有**异构特征融合**模块的多轮对话系统,旨在优化不同对话情境下
2025-05-31 02:51:52
51
翻译 Think Only When You Need with Large Hybrid-Reasoning Models翻译
近期,大型推理模型 (LRM) 通过在生成最终响应之前融入扩展的思考过程,展现出比传统大语言模型 (LLM) 显著提升的推理能力。然而,过长的思考过程会在 token 消耗和延迟方面带来巨大的开销,尤其对于简单问题而言,这显得尤为必要。本文提出了大型混合推理模型 (**LHRM**),这是第一种能够根据用户问题的上下文信息自适应地决定是否进行思考的模型。为了实现这一点,我们提出了一个两阶段训练流程,包括混合微调 (HFT) 作为冷启动,然后进行在线强化学习,并结合我们提出的混合组策略优化 (**HGPO**
2025-05-27 03:30:49
28
翻译 Model Context Protocol (MCP): Landscape, Security Threats, and Future Research Directions翻译
模型上下文协议 (MCP) 是一个标准化接口,旨在实现人工智能模型与外部工具和资源之间的无缝交互,打破数据孤岛,促进不同系统之间的互操作性。本文全面概述了 MCP,重点介绍其核心组件、工作流程以及 MCP 服务器的生命周期,该生命周期包含三个关键阶段:创建、运行和更新。我们分析了每个阶段相关的安全和隐私风险,并提出了缓解潜在威胁的策略。本文还探讨了当前的 MCP 发展态势,包括行业领导者对其的采用情况和各种用例,以及支持其集成的工具和平台。我们探索了 MCP 的未来发展方向,重点介绍了将影响其在更广泛的人工
2025-05-24 04:25:22
35
翻译 Set the Clock: Temporal Alignment of Pretrained Language Models翻译
本研究探讨了预训练语言模型(LM)的时间混乱性,并提出“时间对齐”方法,以将模型内部知识与目标时间对齐。研究首先构建了一个包含2万个时间敏感问题的数据集(TAQA),涵盖2000年至2023年。实验表明,尽管预训练LM(如LLaMa2)的预训练截止时间较近,但其回答问题时多依赖较早的知识(如2019年)。通过提示、微调等方法,研究成功将LLaMa2对齐到2022年,使其性能提升高达62%。此外,研究还发现,将模型微调到历史时间(如2010年)也能显著提升性能。这些发现揭示了LM内部知识组织的复杂性,并强调了
2025-05-19 03:38:42
47
翻译 Learning to Reason under Off-Policy Guidance翻译
大型推理模型(LRM)通过基于规则奖赏的强化学习(RL)实现了多步推理和自我反思等复杂行为。然而,现有的零强化学习(Zero-RL)方法受限于模型自身的输出,无法超越其初始能力。为此,研究提出了 LUFFY 框架,通过结合离线策略推理轨迹和在线策略部署,动态平衡模仿与探索。LUFFY 采用正则化重要性抽样,避免训练中的肤浅模仿,鼓励模型进行更深层次的推理探索。实验表明,LUFFY 在多个数学基准测试中取得了显著提升,尤其在分布外任务中表现优异,超越了传统的基于模仿的有监督微调(SFT)。LUFF
2025-05-16 04:02:31
42
翻译 Accelerating Production LLMs with Combined Token/Embedding Speculators翻译
本技术报告描述了新型推测解码草稿模型的设计和训练,旨在加速生产环境中大语言模型的推理速度。通过同时以上下文向量和采样 token 作为草稿预测的条件,我们可以训练推测器高效地预测高质量的 n-gram,然后由基础模型接受或拒绝这些 n-gram。这使我们能够在每次推理前向传递中有效地预测多个 token,从而将高度优化的基础模型实现的实时推理速度提高 2-3 倍。我们将探索这些初步成果,并描述进一步改进的后续步骤。
2025-05-11 19:35:27
20
翻译 GPG: A Simple and Strong Reinforcement Learning Baseline for Model Reasoning翻译
大语言模型 (LLM) 取得了长足的进步,逐步缩小了与通用人工智能 (AGI) 的差距。近期,以 OpenAI o1 和 DeepSeek R1 为代表的 LLM 采用了在生成最终答案之前生成中间推理步骤的策略。这种方法显著提升了它们在数学推理等特定领域任务中的效率。这项技术的显著成功主要归功于强化微调 (RFT) 方法。通过应用 RFT,模型在生成答案之前分配了额外的时间进行“深思熟虑”,从而构建了复杂的推理链,并最终提升了模型的整体性能。
2025-05-08 03:52:28
48
翻译 CosyVoice 2: Scalable Streaming Speech Synthesis with Large Language Models翻译
近年来,神经文本转语音 (TTS) 合成模型因超越传统的拼接和统计参数化方法而备受关注。这些模型在预定义特定说话人上实现了高保真度和自然度。最近的研究表明,零样本 TTS 模型能够通过模仿参考语音的音色、韵律和风格,为任何说话人合成语音。除了上下文学习 (ICL) 能力之外,零样本 TTS 模型还受益于大规模训练数据,实现了几乎与人类语音难以区分的合成质量和自然度。最近的零样本语音合成 (TTS) 模型大致可分为三类:编解码语言模型、特征扩散模型及其混合系统。
2025-04-28 03:30:07
225
翻译 SCALING SPEECH-TEXT PRE-TRAINING WITH SYNTHETIC INTERLEAVED DATA翻译
语音语言模型 (SpeechLM) 接受语音输入并产生语音输出,与基于文本的大语言模型 (LLM) 相比,其人机交互更加自然。,这些数据的可用性远低于文本预训练数据,从而限制了其作为 LLM 的可扩展性。我们提出了一种新的语音-文本预训练扩展方法,该方法利用源自文本语料库的大规模合成交错数据,从而无需并行语音文本数据集。我们的方法通过从现有文本语料库中采样文本段并使用 text-to-token 模型合成相应的语音段来高效地构建语音-文本交错数据,从而无需生成实际语音。
2025-04-25 20:57:46
77
翻译 KNOWLEDGE GRAPH FINETUNING ENHANCES KNOWLEDGE MANIPULATION IN LARGE LANGUAGE MODELS翻译
尽管通用大语言模型 (LLM) 性能卓越,但它们在特定领域(例如低数据量和知识密集型)的许多应用仍然面临重大挑战。有监督微调 (SFT)——通过在小型标注数据集上进一步训练通用 LLM,使其适应特定任务或领域——已在开发特定领域 LLM 方面展现出强大的能力。然而,现有的 SFT 数据主要由问答 (Q&A) 对组成,这对 LLM 理解问答背后知识的关联性和逻辑性提出了严峻挑战。为了应对这一挑战,我们提出了一个概念灵活且通用的框架来提升 SFT,即nowledgeupervisedine-uning (
2025-04-20 20:47:07
52
翻译 Qwen2.5 Technical Report翻译
在本报告中,我们介绍了 Qwen2.5,这是一系列全面的大语言模型 (LLM),旨在满足多样化的需求。与之前的迭代相比,Qwen 2.5 在预训练和后训练阶段都有了显著的提升。在预训练方面,我们将高质量的预训练数据集从之前的 7 万亿个 token 扩展到 18 万亿个 token,为常识、专家知识和推理能力的构建奠定了坚实的基础。在后训练方面,我们实现了超过百万个样本的复杂有监督微调,以及多阶段强化学习,包括离线学习 DPO 和在线学习 GRPO。
2025-04-18 03:14:35
186
翻译 A Survey on Social Simulation Driven by Large Language Model-based Agent翻译
社会科学研究人类行为和社会结构,以了解社会如何运作。传统的社会学研究严重依赖人类参与进行实验和收集数据。问卷调查和心理实验通常用于检验理论假设、理解社会现象并预测集体结果。虽然这些方法可以提供高度真实的数据,但它们成本高昂、难以规模化,并且存在一定的伦理风险。近年来,大语言模型 (LLM) 在人类级别的推理和规划方面展现出令人印象深刻的能力。它们能够感知环境、做出决策并采取相应的行动,展现出其作为自主智能体替代人类的潜力。
2025-04-13 18:32:35
97
翻译 Emerging Reasoning with Reinforcement Learning is Both Effective and Efficient翻译
许多研究人员正在探索学习 o-style 模型的可能途径,例如蒸馏、MCTS、基于过程的奖赏模型和强化学习。最近,DeepSeek-R1 和 Kimi-k1.5 都展示了这条路径上极其简单的配方,使用简单的 RL 算法来学习新的长 CoT 和自我反思模式,并取得强劲成果,其中没有使用 MCTS 和奖赏模型。然而,他们的实验是基于大规模 RL 设置中的大型模型。小型模型是否可以展示类似的行为、需要多少数据以及定量结果与其他方法相比如何仍不清楚。
2025-04-08 20:14:20
57
翻译 Critique Fine-Tuning: Learning to Critique is More Effective than Learning to Imitate翻译
最近,大语言模型 (LLM) 在解决实际问题方面表现出了前所未有的性能。核心技术之一是有监督微调 (SFT),它训练这些 LLM 遵循自然语言指令。在 SFT 过程中,LLM 被迫模仿带标注的响应。人们已经付出了很多努力来构建高质量的 SFT 数据集,使用 Self-Instruct 和 Evol-Instruct 等方法增强 LLM 的通用指令遵循能力。最近,MAmmoTH、MetaMath 和 WizardCoder 等作品已经采用 SFT 来提高 LLM 在数学推理、编码等领域的目标能力。
2025-03-30 04:10:38
72
翻译 Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models?翻译
思维链(Chain-of-Thought,简称 CoT)推理为大语言模型(LLMs)应对复杂推理任务提供了一种全新的方案。通过使用少量精心设计的指令,CoT 使得 LLMs 能够生成非结构化的推理步骤,从而提升其在复杂任务中的表现。此外,OpenAI 推出的 o1 模型标志着人工智能系统在执行高级推理能力方面的重大进展。与传统模型不同,o1 擅长通过使用扩展的推理链和采用测试时扩展(即“慢思考”)的方式来解决复杂问题。近年来,众多研究开始尝试对大模型的推理范式进行假设。
2025-03-26 04:35:52
79
翻译 CoSER: Coordinating LLM-Based Persona Simulation of Established Roles翻译
大语言模型 (LLM) 的最新进展促进了人工智能中拟人化认知的出现。角色扮演语言 Agent (RPLA),即基于相关数据模拟既定角色的 LLM,因此而广受欢迎。RPLAs已被用于模拟各种类型的人物,包括不同人群、虚构角色或普通个体,并激发了广泛的应用,如角色聊天机器人、视频游戏中的 NPC 以及人类的数字克隆。本文研究的是针对既定角色的 RPLAs,这代表了一项至关重要但具有挑战性的任务,超越了对个人特征或刻板印象的天真描绘。具体而言,RPLA 应该忠实地与角色的复杂背景保持一致,并捕捉他们微妙的个性。
2025-03-22 04:01:24
144
翻译 Robust Speech Recognition via Large-Scale Weak Supervision翻译
语音识别领域的进步得益于无监督预训练技术的开发,例如 Wav2Vec 2.0。由于这些方法直接从原始音频中学习,无需人工标注,因此它们可以高效地使用大量未标注语音数据集,并且已迅速扩展到 1,000,000 小时的训练数据,远远超过学术监督数据集通常的 1,000 小时左右。在标准基准上进行微调后,这种方法已经提高了最先进的水平,尤其是在低数据设置下。这些预训练的音频编码器。
2025-03-17 04:20:48
100
翻译 Towards Economical Inference: Enabling DeepSeek’s Multi-Head Latent Attention翻译
大语言模型 (LLM) 的快速发展显著加速了通用人工智能 (AGI) 的发展,模型能力随着参数数量的增加而可预测地扩展。然而,这些收益的代价是高昂的:训练的计算需求不断增加,推理吞吐量下降,导致大量的能源消耗和碳排放。随着下游任务的复杂度不断提升,长上下文处理和计算密集型推理成为 LLM 应用的核心。Multi-Head Attention (MHA, 2017) 的一个关键瓶颈在于其固有的 KV 缓存的内存占用,该缓存随序列长度和模型大小线性增长。
2025-03-13 04:51:54
151
翻译 Continual Pre-Training of Large Language Models: How to (re)warm your model?翻译
大型预训练模型已使视觉和语言领域的许多下游任务的性能得到大幅提升。然而,训练这些基础模型的成本过高。现有研究旨在通过实现低成本超参数优化或提供在给定计算预算下最大化性能的指导方针来降低大规模模型开发的成本。然而,这些研究假设模型将从头开始训练。随着可用于预训练的数据量不断增长,新的和改进的数据集(例如 RedPajama 和 SlimPajama)将不断涌现。从业者是否应该始终结合现有数据集(例如 Pile)并从头开始训练以获得最佳性能?这样做很快就会变得成本过高,并且无法利用现有的预训练模型。
2025-03-09 04:32:07
225
翻译 ParGo: Bridging Vision-Language with Partial and Global Views翻译
最近的多模态大语言模型 (MLLM) 在各种任务(例如,视觉问答)中取得了显著进展。视觉语言投影层是 MLLM 中广泛使用的组件,旨在为 LLM 提供适当的视觉特征。由于其在桥接模态方面发挥的关键作用,它在最近的研究中引起了广泛关注。先驱工作直接使用线性或多层感知器层 (MLP) 来投影视觉特征。然而,这种基于线性的投影仪很难控制提供给 LLM 视觉 token 的数量(例如,处理细粒度特征),从而导致计算成本高昂。
2025-03-06 04:38:21
100
翻译 Natural language guidance of high-fidelity text-to-speech with synthetic annotations翻译
在大规模数据集上训练的文本转语音模型已展示出令人印象深刻的上下文学习能力和自然度。然而,这些模型中说话人身份和风格的控制通常需要参考语音,这限制了创造性应用。。然而,对人工标注描述的依赖阻碍了扩展到大型数据集。我们的工作弥补了这两种方法之间的差距。我们提出了一种可扩展的方法来标住说话人的身份、风格和录音条件的各个方面。然后,我们将此方法应用于 45k 小时的数据集,并使用该数据集来训练语音语言模型。此外,我们提出了提高音频保真度的简单方法,尽管完全依赖于找到的数据,但其表现明显优于最近的研究。
2025-03-02 20:51:56
76
翻译 Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning翻译
大语言模型 (LLM) 在各种推理任务中都表现出色,包括数学问题、编程和逻辑推理。实现这些强大推理能力的关键技术之一是思维链 (CoT) 提示,它允许 LLM 通过生成一系列中间推理步骤来解决复杂任务。因此,许多早期的努力都集中在使用大规模、高质量的 CoT 推理链对 LLM 进行微调,无论是通过人工标注还是通过从更高级的模型中提取合成数据。然而,人工标注极其耗费人力,而蒸馏通常会将模型的推理能力限制到一定水平。
2025-02-27 03:02:04
112
翻译 Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant翻译
大语言模型 (LLM) 已成为解决通用任务的强大工具,通过对话帮助人们解决日常生活问题。虽然这些模型已经改变了基于文本的交互,但音频对于人类交流仍然至关重要,它所承载的信息往往超过书面文字。大多数语音助手使用级联系统架构。在这种方法中,用户触发自动语音识别 (ASR) 系统将请求转录为文本。然后,自然语言理解 (NLU) 管道将此 query 转换为结构化格式,用于通过自然语言生成 (NLG) 生成文本答案。最后,文本转语音 (TTS) 系统将答案发声给用户。
2025-02-21 03:23:58
36
翻译 LLAMA PRO: Progressive LLaMA with Block Expansion翻译
人类通常能够获得新技能而不会损害旧技能;然而,对于大语言模型 (LLM) 来说,情况却相反,例如从 LLaMA 到 CodeLLaMA。为此,我们提出了一种新的 LLM 后预训练方法,并扩展了 Transformer 块。我们仅使用新语料库来微调扩展的块,从而高效、有效地提高模型的知识并减轻遗忘。在本文中,我们在代码和数学语料库上进行了实验,得到了 LLAMA PRO-8.3B,这是一个由 LLaMA2-7B 初始化的多功能基础模型,在通用任务、编程和数学方面表现出色。
2025-02-19 04:15:52
52
翻译 FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning翻译
扩大 Transformer 的上下文长度是一项挑战,因为其核心的注意力层对运行时和内存的要求是输入序列长度的二次方。理想情况下,我们希望超越标准的 2k 序列长度限制,以训练模型理解书籍、高分辨率图像和长篇视频。仅在去年,就出现了几种上下文比以前长得多的语言模型:GPT-4 的上下文长度为 32k,MosaicML 的 MPT 的上下文长度为 65k,Anthropic 的 Claude 的上下文长度为 100k。长文档查询和故事写作等新兴用例表明需要具有如此长上下文的模型。
2025-02-16 19:08:13
60
翻译 s1: Simple test-time scaling翻译
过去几年来,语言模型 (LM) 的性能改进很大程度上依赖于使用大规模自监督预训练来扩展训练时计算。这些强大模型的创建为建立在它们之上的新扩展范式奠定了基础:测试时扩展。这种方法的目的是增加测试时的计算以获得更好的结果。人们已经进行了大量工作来探索这个想法,OpenAI o1 最近验证了这种范式的可行性。o1 已经展示了强大的推理性能,并通过扩展测试时间计算获得了持续的收益。OpenAI 将他们的方法描述为使用大规模强化学习 (RL),这意味着使用大量数据。
2025-02-13 15:21:13
90
翻译 Towards Lifelong Learning of Large Language Models: A Survey翻译
随着大语言模型 (LLM) 的应用扩展到各个领域,这些模型适应数据、任务和用户偏好的持续变化的能力变得至关重要。传统的训练方法依赖于静态数据集来训练 LLM,但越来越不足以应对现实世界信息的动态特性。终身学习(又称持续学习、增量学习),或 LLM 在其运行寿命内持续自适应学习的能力,通过整合新知识同时保留先前学习的信息来解决这一挑战,从而防止灾难性遗忘的问题。图 1 提供了终身学习的图示。本调查深入研究了终身学习的复杂情况,根据新知识的整合方式将策略分为两大类:内部知识和外部知识。
2025-02-11 04:25:28
82
翻译 Chain-of-Retrieval Augmented Generation翻译
检索增强生成 (RAG) 是企业应用中的核心技术之一,需要将大型基础模型与专有数据源集成,以生成既有根据又符合事实的响应。传统上,基础模型是在包含数万亿个 token 的大规模数据集上进行训练的,并且在部署后保持冻结状态。尽管如此,这些模型经常难以记住长尾事实知识,或者可能产生虚假声明的幻觉,导致在现实场景中响应不可靠。RAG 通过使用检索到的信息增强生成过程来缓解这一挑战,从而提高模型生成内容的可信度并促进最新信息的整合。
2025-02-06 03:54:06
228
翻译 WebWalker: Benchmarking LLMs in Web Traversal翻译
大语言模型 (LLM) 在广泛的自然语言处理任务中展现出了令人印象深刻的能力。虽然它们的知识库在训练后保持静态,但通过检索增强生成 (RAG) 集成外部搜索引擎允许 LLM 从网络上检索最新信息,从而增强其在动态、知识密集型场景中的实用性。然而,传统的在线搜索引擎(例如 Google 或 Bing)对 query 执行横向搜索,可能无法有效追踪网站中嵌入的更深层内容。与网页交互并深入挖掘可以有效解决此问题。之前与网页相关的研究侧重于解决基于动作的请求,例如 Mind2Web 和 WebArena;
2025-02-02 17:46:44
100
翻译 Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement翻译
大语言模型 (LLM) 正在经历快速发展,专有模型(如 GPT 和 Gemini)以及开源模型(如 LLaMA、Qwen、Mistral 和 Deepseek)以前所未有的速度发展。然而,这种快速迭代带来了一个重大挑战:用于有监督微调 (SFT) 的现有高质量数据的枯竭。此外,互联网上越来越多地充斥着质量参差不齐且通常值得怀疑的合成数据,这使得为 LLM 构建和筛选更高质量的训练数据变得越来越困难。对 SFT 训练的实证研究已明确表明,数据质量和数量在提高模型性能方面都发挥着至关重要的作用。
2025-01-31 04:14:28
102
翻译 GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot翻译
大语言模型 (LLM) 的成功推动了对话式 AI 的重大进步,推动了基于文本的聊天机器人和数字助理的发展。然而,LLM 主要用于处理文本输入和生成文本输出,侧重于语义和逻辑交流。相比之下,人类交流超越了语义,经常传达情感和细微差别。因此,基于语音的交互为人机交互提供了更自然、更直观的媒介,提供了更丰富、更具吸引力的用户体验。传统的语音聊天机器人通常依赖于结合自动语音识别 (ASR)、LLM 处理和文本转语音 (TTS) 合成的管道。
2025-01-28 02:03:10
110
翻译 DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models翻译
大型语言模型 (LLM) 彻底改变了人工智能中的数学推理方法,推动了定量推理基准和几何推理基准的重大进步。此外,这些模型已被证明有助于帮助人类解决复杂的数学问题。然而,GPT-4 和 Gemini-Ultra 等尖端模型尚未公开,目前可访问的开源模型在性能上远远落后。在本研究中,我们引入了 DeepSeekMath,这是一种特定领域语言模型,其数学能力显著优于开源模型,并在学术基准上接近 GPT-4 的性能水平。
2025-01-25 04:34:34
216
翻译 DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models翻译
多模态大型语言模型(MLLM)赋予了大型语言模型(LLM)视觉感知能力,这些模型已在各种视觉语言任务中展现出多功能性和专业性。对于MLLM来说,学习良好的视觉语言对齐是其智能的核心。为了实现跨模态对齐,最近的研究利用中间模块,即投影层,将图像块的表示映射到LLM嵌入空间作为视觉token。广泛使用的投影层可以粗略地归纳为两个分支:非压缩投影和压缩投影。非压缩投影直接使用线性层将视觉token维度转换为LLM维度,同时保持视觉token数量不变。
2025-01-20 04:41:09
112
翻译 DeepSeek-V3 Technical Report翻译
我们提出了DeepSeek-V3,这是一个强大的混合专家(MoE)语言模型,总共有671B个参数,每个token激活37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了彻底的验证。此外,DeepSeek-V3开创了一种无辅助损失的负载平衡策略,并设置了多token预测训练目标以获得更强大的性能。
2025-01-17 19:02:12
195
翻译 HERMES 3 TECHNICAL REPORT翻译
指令(或“Chat”)微调模型已成为大多数人与大型语言模型交互的主要方式。与“base”或“foundation”模型相反,指令微调模型经过优化,可响应命令式语句。我们提出了 Hermes 3,这是一种中立的通用指令和工具使用模型,具有强大的推理和创造能力。其最大版本 Hermes 3 405B 在多个公共基准测试中实现了开放权重模型中最先进的性能。所有模型的权重均可在 https://huggingface.co/NousResearch 上找到。大型语言模型通常针对广泛而多样的文本分布进行训练。例如,“
2025-01-12 20:57:29
68
翻译 From Local to Global: A Graph RAG Approach to Query-Focused Summarization翻译
人类在各个领域的努力都依赖于我们阅读和推理大量文档的能力,我们经常得出超出源文本本身的结论(即思考和推理过程。
2024-12-21 03:44:46
123
翻译 Generative Agent Simulations of 1,000 People翻译
人类行为模拟(能够跨领域复制人类行为的通用计算代理)的前景广阔,可以广泛应用于政策制定和社会科学。我们提出了一种新的 Agent 架构,可以模拟 1,052 个真实个体的态度和行为——将大语言模型应用于有关他们生活的定性访谈,然后测量这些 Agent 如何很好地复制它们所代表的个体的态度和行为。生成式 Agent 复制参与者在综合社会调查中的回答的准确率是参与者两周后复制自己答案的 85%,并且在预测实验复制中的性格特征和结果方面表现相当。
2024-12-17 04:21:38
100
翻译 REFT: Reasoning with REinforced Fine-Tuning翻译
解决数学问题的最先进方法采用有监督微调 (SFT),使用思维链 (CoT) 标注来训练模型。如图 1 所示,CoT 标注概述了解决数学问题的中间推理步骤。通常,训练数据中的每个问题都有一个 CoT 标注,即一条正确的推理路径,SFT 则会利用该标注。我们观察到,这可能会导致 SFT 模型的泛化能力相对较弱。通常情况下,同一个问题存在多个有效的 CoT 路径,这凸显了对更强大的微调方法的需求。为了解决这个问题,我们提出了一种简单而有效的方法,称为强化微调 (ReFT)(图 1 底部)。
2024-12-14 03:48:38
84
空空如也
VC++中如何实现office中通过文件菜单打开命令,在试图中显示文本内容并且可以编辑?
2015-06-14
TA创建的收藏夹 TA关注的收藏夹
TA关注的人