自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(586)
  • 收藏
  • 关注

原创 逐步蒸馏!用更少的训练数据和更小的模型规模超越更大的语言模型

我们提出 Distilling step-by-step,这是一种新机制:(a) 能够训练出性能优于 LLM 的小模型;(b) 且只需比 finetuning 或 distillation 更少的训练数据。我们的方法在 multi-task 框架中利用 LLM 的 rationales 作为额外的监督信号来训练小模型。

2025-12-25 10:43:18 38

原创 NLHF:基于人类反馈的纳什学习

基于人类反馈的强化学习(Reinforcement learning from human feedback, RLHF)已经成为将大型语言模型(LLMs)对齐于人类偏好的主要范式。传统上,RLHF 包括首先从成对的人类反馈中学习一个reward模型,即人类对文本生成对之间偏好的表达。随后,通过强化学习算法对LLM的policy进行微调,以最大化该reward。在本研究中,我们提出了一种用于LLM微调的替代流程,仍基于成对的人类反馈。我们的方法首先学习一个pairwise preference模型,该模型在

2025-12-06 09:50:44 42

原创 NLHF:基于人类反馈的纳什学习

在附录 G 中,我们报告了在文本摘要任务上的实验,并比较了多种 NLHF 算法(SelfPlay、对 µ 的 Best-Response、Nash-MD-PG 和 Nash-EMA-PG),以及一个 RLHF 基线方法。我们对所有模型进行了成对评估,评估方式是调用一个非常大的 LLM(PaLM 2 Large)(Anil 等,2023)以获得偏好信号,结果如表 1 所示。

2025-12-05 11:12:52 42

原创 BCO:用于大语言模型对齐的二分类器优化

在诸如 ChatGPT 等实际服务中,根据用户反馈对模型进行对齐对于提升模型性能至关重要。但大多数现有的对齐研究依赖偏好建模方法,需要成对的正负反馈样本。。该方法训练一个二分类器,其 logit 可作为隐式奖励,从而有效最小化 Direct Preference Optimization(DPO)损失。我们证明,分类器训练中使用的 binary cross-entropy(BCE)损失构成 DPO 损失的上界。此外,我们提出了一种新颖的 reward shift 技术,用于进一步缩小两种损失之间的差距。

2025-12-04 08:13:08 96

原创 SAC : 具有随机Actor的离策略最大熵深度强化学习

无模型的深度强化学习(RL)算法已在一系列具有挑战性的决策与控制任务中取得了成果。然而,这些方法通常面临两个主要挑战:极高的样本复杂度和收敛性能的不稳定性,这就需要对超参数进行精细调整。这两个问题严重限制了此类方法在复杂现实世界场景中的适用性。在本文中,我们提出了,这是一种基于的。在该框架中,actor 的目标是在,也就是说,在尽可能成功地完成任务的同时,尽可能以随机的方式执行动作。先前基于该框架的深度RL方法多以 Q-learning 方式实现。

2025-12-01 11:10:49 35

原创 GKD:语言模型的策略内蒸馏:从自身生成的错误中学习

首先在抽象摘要任务中评估GKD,即生成能够抓取输入文档核心内容的摘要。我们使用XSum数据集(Narayan等,2018),包含新闻文章及其人工撰写的摘要。参考PaLM(Chowdhery等,2022),在XSum验证集上使用ROUGE-2分数(Lin, 2004)评价预测摘要的质量,同时观察到ROUGE-L和ROUGE-1的趋势一致。学生模型为在XSum上经过监督微调的T5系列,教师模型为微调后的T5-XL。更多实验细节见附录A.3。与基线方法的比较。

2025-11-30 20:55:57 133

原创 KTO:将模型对齐视为前景理论优化

Kahneman 与 Tversky 的前景理论指出,人类以一种有偏但结构明确的方式感知随机变量(1992);例如,人类表现出明显的损失厌恶倾向。我们展示了,在使大语言模型(LLM)对齐于人类反馈的目标函数中,许多此类偏差已被隐含地纳入——这些目标函数(如 DPO)优于交叉熵最小化的部分原因,在于它们属于我们称之为人类感知损失函数(human-aware losses, HALOs)的函数族。然而,这些方法所假设的人类效用函数,仍然与前景理论文献中的形式存在差异。我们基于 Kahneman-Tversky

2025-11-27 10:36:08 92

原创 ORPO:无参考模型的一体化偏好优化

虽然近期针对语言模型的偏好对齐算法展现了良好的效果,但监督微调(SFT)仍然是实现成功收敛的必要步骤。本文研究了监督微调在偏好对齐中的关键作用,强调对不受欢迎生成风格施加轻微惩罚已足够实现偏好对齐的监督微调。基于此,我们提出了一种简单且创新的无参考模型一体化赔率比偏好优化算法——ORPO,免除了额外偏好对齐阶段的需求。我们从理论与实验两个方面证明,赔率比是监督微调过程中对比受欢迎与不受欢迎风格的合理选择,适用于从1.25亿到70亿参数的多种模型规模。

2025-11-27 10:31:56 32

原创 DPO:直接偏好优化:你的语言模型其实是一个奖励模型

若两个奖励函数。

2025-11-26 09:02:39 42

原创 使用深度强化学习进行连续控制

我们将深度Q学习成功的核心思想扩展到了连续动作域中。本文提出了一种基于确定性策略梯度的无模型actor-critic算法,能够处理连续动作空间。利用相同的学习算法、网络架构和超参数,该算法稳定地解决了20多个模拟物理任务,包括经典问题如倒立摆摆起(cartpole swing-up)、灵巧操作、足式行走以及自动驾驶等。我们的算法能够学习出策略,其性能可与拥有环境动力学和导数全部信息的规划算法相媲美。我们还进一步展示,对于许多任务,该算法可以实现“端到端”学习:直接从原始像素输入中学习策略。

2025-11-26 08:54:59 32

原创 用于深度强化学习的异步方法

我们提出了一个概念上简单且轻量的深度强化学习框架,该框架使用异步梯度下降来优化深度神经网络控制器。我们提出了四种标准强化学习算法的异步变体,并展示了并行的 actor-learner 对训练具有稳定作用,使得所有四种方法都能成功地训练神经网络控制器。表现最好的方法是 actor-critic 的异步变体,它在 Atari 环境中超越了当前的最先进方法,并且仅在一个多核 CPU(而非 GPU)上训练了一半的时间。

2025-11-25 09:05:42 39

原创 在 Actor-Critic 方法中应对函数近似误差

在基于值的强化学习方法(如深度 Q-learning)中,函数近似误差已知会导致价值估计的高估以及次优策略。我们证明了这个问题在 actor-critic 设置中同样存在,并提出了新的机制以最小化它对 actor 和 critic 的影响。我们的算法基于 Double Q-learning,通过取一对 critic 的最小值来限制高估现象。我们指出了目标网络与高估偏差之间的联系,并建议延迟策略更新以减少每次更新的误差,并进一步提升性能。

2025-11-25 08:58:01 193

原创 量化大型语言模型的评估

后训练量化(PTQ)作为一种有前景的技术,能够有效降低大型语言模型(LLMs)的计算成本。具体来说,PTQ可以显著减少LLMs的内存消耗和计算开销。为了在多样化场景下兼顾高效性和性能,全面评估量化后的LLMs显得尤为重要,以指导量化方法的选择。

2025-11-24 08:44:47 128

原创 EAGLE-2:通过动态草稿树加速语言模型推理

现代 Large Language Models(LLMs)的推理过程既昂贵又耗时,而 speculative sampling 已被证明是一种有效的解决方案。大多数 speculative sampling 方法(例如 EAGLE)使用静态的 draft tree,并默认 draft token 的接受率仅依赖于其位置。有趣的是,我们发现 draft token 的接受率也依赖于上下文。本文在 EAGLE 的基础上提出了,该方法引入了一种新的技术用于 draft 建模。

2025-11-24 08:39:29 201

原创 GEAR:一种高效的 KV Cache 压缩方法,用于几乎无损的大语言模型生成式推理

Key-value(KV)缓存已成为提升大语言模型(LLM)推理生成速度的事实标准技术。然而,随着序列长度的增加,缓存需求的不断增长使得LLM推理演变为一个受限于内存带宽的问题,显著限制了系统吞吐量。现有方法通常依赖于丢弃不重要的token或对条目进行分组量化。然而,这些方法在表示压缩矩阵时常常引入较大的近似误差。自回归解码过程进一步在每个步骤中累积误差,导致模型生成结果的严重偏离与性能下降。为了解决这一问题,我们提出了。

2025-11-10 14:41:05 87

原创 压缩上下文以提升大语言模型的推理效率

表1中,我们首先比较了 Selective Context 与原始上下文的性能,以评估 Selective Context 在降低上下文开销时对有用信息的保留效果。指标为第4.2节所述所有模型的平均值,括号内为性能下降幅度。如表中所示,当压缩比例设置为0.2或0.35时,Selective Context 仅带来了微小的性能下降,尽管上下文开销显著减少。当压缩20%的内容时,BLEU 分数仅下降了0.05;ROUGE-1 的下降更小,仅为0.03。

2025-11-10 14:35:10 99

原创 DISTILLM:迈向大型语言模型的简化蒸馏方法

我们使用两个数据集 —— SAMSum(Gliwa et al., 2019)和 IWSLT 2017(Cettolo et al., 2017)—— 来评估任务特定语言模型在摘要和翻译任务上的效果。对于 SAMSum 数据集,我们使用 T5-XL v1.1(Raffel et al., 2020)作为教师模型,T5-Base/-Small v1.1 作为学生模型。

2025-11-06 10:30:50 48

原创 DUOATTENTION:结合检索与流式注意力机制的高效长上下文大语言模型推理方法

第 2.1 节中我们从定性角度区分了 retrieval 头与 streaming 头,而要进行精确识别,还需要一个明确且量化的定义。本文将。

2025-11-06 10:22:20 89

原创 DISTILLM:迈向大型语言模型的简化蒸馏方法

我们使用两个数据集 —— SAMSum(Gliwa et al., 2019)和 IWSLT 2017(Cettolo et al., 2017)—— 来评估任务特定语言模型在摘要和翻译任务上的效果。对于 SAMSum 数据集,我们使用 T5-XL v1.1(Raffel et al., 2020)作为教师模型,T5-Base/-Small v1.1 作为学生模型。

2025-11-05 10:02:31 96

原创 DUOATTENTION:结合检索与流式注意力机制的高效长上下文大语言模型推理方法

第 2.1 节中我们从定性角度区分了 retrieval 头与 streaming 头,而要进行精确识别,还需要一个明确且量化的定义。本文将。

2025-11-05 09:54:26 101

原创 decoupleQ:通过将参数解耦为整数与浮点数,实现2比特后训练统一量化

decoupleQ将模型参数解耦为整数部分和浮点部分,然后交替优化这两部分。这个优化过程包含两个阶段:在层级最小化阶段,我们将量化问题转化为一个纯粹的数学约束优化问题(公式(6));而在块级最小化阶段,我们冻结整数部分,然后微调浮点部分。decoupleQ 的风险主要来自两个方面:一方面,最小化某一层或某一块输出的 ℓ₂ 损失在多大程度上与模型精度相关;另一方面,decoupleQ 容易对校准数据集产生过拟合。

2025-11-04 16:10:48 58

原创 EAGLE:推测采样需要重新思考特征不确定性

自回归解码使得大语言模型(LLMs)的推理过程耗时较长。本文重新审视了推测采样(speculative sampling),并提出两个关键观察。首先,在(即倒数第二层)进行自回归比在更为直接。其次,特征层面自回归中限制了其性能。基于这些见解,我们提出了,一个简单但高效的推测采样框架。通过引入前推一个时间步的 token 序列,EAGLE 有效缓解了特征层面的不确定性,从而以极低的计算开销,实现了对倒数第二层特征的精准预测。

2025-11-04 16:02:31 55

原创 DeepSeek-OCR:上下文光学压缩

我们提出了,作为一种通过光学二维映射压缩长上下文的可行性初步研究。和(作为解码器)。具体而言,DeepEncoder 作为核心引擎,被设计用于在高分辨率输入下保持较低的激活量,同时实现高压缩率,以确保视觉token的数量在最优且可控的范围内。实验结果表明,当文本token数量在视觉token数量的10倍以内(即压缩率 < 10×)时,模型可以达到97%的解码(OCR)精度。即使在压缩率达到20×时,OCR准确率仍保持在约60%。

2025-11-03 11:06:34 105

原创 decoupleQ:通过将参数解耦为整数与浮点数,实现2比特后训练统一量化

decoupleQ将模型参数解耦为整数部分和浮点部分,然后交替优化这两部分。这个优化过程包含两个阶段:在层级最小化阶段,我们将量化问题转化为一个纯粹的数学约束优化问题(公式(6));而在块级最小化阶段,我们冻结整数部分,然后微调浮点部分。decoupleQ 的风险主要来自两个方面:一方面,最小化某一层或某一块输出的 ℓ₂ 损失在多大程度上与模型精度相关;另一方面,decoupleQ 容易对校准数据集产生过拟合。

2025-10-29 10:05:33 45

原创 EAGLE:推测采样需要重新思考特征不确定性

自回归解码使得大语言模型(LLMs)的推理过程耗时较长。本文重新审视了推测采样(speculative sampling),并提出两个关键观察。首先,在(即倒数第二层)进行自回归比在更为直接。其次,特征层面自回归中限制了其性能。基于这些见解,我们提出了,一个简单但高效的推测采样框架。通过引入前推一个时间步的 token 序列,EAGLE 有效缓解了特征层面的不确定性,从而以极低的计算开销,实现了对倒数第二层特征的精准预测。

2025-10-29 09:59:16 57

原创 大语言模型的知识蒸馏综述

知识蒸馏在人工智能(AI)和深度学习(DL)领域指的是将知识从大型复杂模型(教师模型)转移到较小且更高效的模型(学生模型)的过程(Gou et al., 2021)。该技术在缓解部署大规模模型时面临的计算需求和资源限制方面起到了关键作用。在LLMs时代之前,知识蒸馏技术主要集中于将知识从复杂且通常较为笨重的神经网络转移到更紧凑高效的架构上(Sanh et al., 2019;这一过程主要源于在资源受限环境中部署机器学习模型的需求,如移动设备或边缘计算平台,这些环境中计算能力和内存有限。

2025-10-27 20:44:36 129

原创 COAT: 压缩优化器状态和激活以实现内存高效的FP8训练

给定一个包含。

2025-10-27 16:30:03 63

原创 CacheGen:用于快速大语言模型推理服务的 KV 缓存压缩与流式传输

随着大语言模型(LLMs)处理的任务日益复杂,其输入通常需要补充更长的上下文以整合领域知识。然而,使用长上下文面临挑战:在整个上下文被模型处理完之前,模型无法开始生成任何内容。虽然可以通过在不同输入间复用上下文的 KV 缓存来减少处理延迟,但由于 KV 缓存包含大型张量,跨网络获取这些缓存会引入较高的额外网络延迟。是一个用于 LLM 系统的快速上下文加载模块。首先,CacheGen 利用 KV 缓存的分布特性,通过自定义张量编码器将 KV 缓存编码为更紧凑的比特流表示,在几乎无解码开销的前提下大幅节省带宽。

2025-10-24 11:06:19 112

原创 CacheBlend:结合缓存知识融合的快速RAG大语言模型推理服务

大语言模型(LLMs)通常在输入中包含多个文本片段,以提供必要的上下文。为了加速对较长LLM输入的预填充(prefill),可以预先计算文本的KV缓存,并在该上下文作为另一个LLM输入前缀时复用KV缓存。然而,被复用的文本片段并不总是作为输入前缀,这导致预计算的KV缓存无法直接使用,因为它们忽略了该文本与前置文本之间的交叉注意力。因此,KV缓存复用的优势在很大程度上尚未被实现。

2025-10-24 10:46:54 156

原创 Deja Vu: 利用上下文稀疏性提升大语言模型推理效率

设常数。

2025-10-23 10:24:32 119

原创 Block Transformer:面向快速推理的全局到局部语言建模

我们提出了,它将分层的全局到局部建模方法引入自回归 transformer,以缓解自注意力机制在推理过程中的瓶颈。自注意力机制需要在每一步解码时,从内存中检索所有历史序列的 key-value(KV)缓存以获取上下文信息,这在批量推理时导致两个主要瓶颈。首先,在获取首个 token 时存在显著延迟,因为必须先处理整个提示信息以预填充 KV 缓存。其次,后续 token 的计算受限于高内存 I/O 需求,需要读取整个 KV 缓存,而其大小随着序列长度线性增长,最终导致整体二次的内存读取开销。我们设计。

2025-10-23 10:16:09 57

原创 DeepSpeed-FastGen:通过 MII 和 DeepSpeed-Inference 实现大语言模型的高吞吐文本生成

随着大语言模型(LLM)被广泛应用,其部署与扩展变得至关重要,用户对高吞吐量与低延迟的推理服务系统提出了更高的要求。现有的推理框架在应对长提示词任务时难以兼顾这两方面的需求。本文提出 DeepSpeed-FastGen,一个使用全新提示与生成阶段融合策略 ——的系统,相较于最先进的系统(如 vLLM),其实现了最多 2.3 倍的有效吞吐量提升、平均 2 倍的延迟降低,以及最多 3.7 倍的 token 级尾部延迟降低。

2025-10-22 09:46:22 96

原创 BitDelta: 你的微调也许只值一比特

大语言模型(LLMs)通常通过两个阶段进行训练:首先在大规模互联网数据集上进行预训练,然后进行下游任务的微调。鉴于预训练在计算资源上更为昂贵,直觉上我们可以假设微调为模型添加的信息更少,因此更容易压缩。我们通过将微调后的模型权重分解为其预训练部分和额外的delta,来验证这一假设。我们提出了一种简单的后微调方法——BitDelta,它能够在不影响性能的前提下将这个delta量化为1比特。这一有趣的发现不仅揭示了微调中新增信息的潜在冗余性,也对微调模型在多租户部署与存储中的应用具有重要意义。

2025-10-22 09:41:28 37

原创 1-bit AI 基础设施: 在 CPU 上实现快速且无损的 BitNet b1.58 推理

近期在 1-bit 大语言模型(LLMs)方面的进展,如 BitNet [WMD+23] 和 BitNet b1.58 [MWM+24],为提升 LLM 在速度与能耗方面的效率提供了一种极具前景的路径。这些进展也使得在各种设备上本地部署 LLM 成为可能。在本工作中,我们提出了—— 一个专为释放 1-bit LLM 全部潜力而设计的软件栈。具体而言,我们开发了一组内核,用于在 CPU 上对三值化的 BitNet b1.58 LLM 实现快速且无损的推理。大量实验表明,

2025-10-21 09:06:26 55

原创 BitDistiller:通过自蒸馏释放 Sub-4-Bit 大语言模型的潜力

大语言模型(LLMs)的规模不断扩大,在自然语言处理方面取得了令人瞩目的进展,但这也带来了显著的部署挑战。权重量化已成为广泛采用的解决方案,用于降低内存和计算需求。本文提出了,一个融合了量化感知训练(Quantization-Aware Training, QAT)与知识蒸馏(Knowledge Distillation, KD)的框架,用以提升超低精度(sub-4-bit)LLMs 的性能。具体而言,BitDistiller 首先引入了一个定制的非对称量化与裁剪技术,以最大程度地保留量化权重的精度;

2025-10-21 09:00:54 89

原创 BiLLM:突破大语言模型后训练量化的极限

预训练的大语言模型(LLMs)展现出卓越的通用语言处理能力,但同时对内存和计算资源提出了极高要求。作为一种强大的压缩技术,二值化(binarization) 可以将模型权重极大压缩至仅1位,从而显著降低计算和内存开销。然而,现有的量化技术在超低比特宽度下难以保持LLM的性能。为应对这一挑战,我们提出了,一种面向预训练LLM的开创性1比特后训练量化(post-training quantization)方法。

2025-10-20 12:18:50 110

原创 一种集合式方法:实现高效且有效的大语言模型零样本排序

我们提出了一种基于大语言模型(LLMs)的新颖零样本文档排序方法:集合式提示(Setwise prompting)方法。我们的方法补充了现有的用于LLM零样本排序的提示方法:逐点式(Pointwise)、成对式(Pairwise)和列表式(Listwise)。通过首次在一致的实验框架下进行的对比评估,并综合考虑模型大小、token消耗、延迟等因素,我们表明现有方法在效果和效率之间存在固有的权衡。我们发现,虽然逐点式方法在效率上得分较高,但其效果表现较差。

2025-10-20 12:11:59 95

原创 ABQ-LLM:用于大语言模型的任意比特量化推理加速

重构任意比特计算。为了支持W1A1量化,NVIDIA在Turing及之后的架构中引入了INT1 TensorCore提供硬件支持。但由于W1A1量化导致显著的性能下降,目前尚未被广泛应用。通过对量化矩阵乘法的数学分析,我们发现任意组合的量化计算都可以分解为多个1比特矩阵乘法的叠加。假设某神经网络层的权重WWW被量化为qqq比特,输入激活值XXX被量化为ppp比特,则矩阵乘法W×XW \times XW×X的输出是一个32比特的结果YYY。关键是观察WWW和XXX。

2025-10-17 10:18:03 152

原创 Wanda:一种简单而有效的大语言模型剪枝方法

随着规模的不断扩大,大语言模型(Large Language Models, LLMs)自然成为网络剪枝方法的应用对象:这类方法通过舍弃部分网络权重来压缩模型,同时尽力保持性能。然而,现有方法通常需要重新训练,而对于参数量以十亿计的LLM而言,重新训练几乎不可承受;或者需要求解依赖二阶信息的权重重构问题,这在计算上同样代价高昂。本文提出了一种新颖、直接但有效的剪枝方法,称为,用于在预训练的LLM中引入稀疏性。

2025-10-17 10:10:47 121

原创 CUDA专题17—GPU 高效协同:OpenGL、Direct3D 和 Vulkan 的外部资源互操作技巧

来自 OpenGL 和 Direct3D 的某些资源可以映射到 CUDA 的地址空间中,这样做的目的要么是使 CUDA 能够读取由 OpenGL 或 Direct3D 写入的数据,要么是使 CUDA 能够写入数据供 OpenGL 或 Direct3D 使用。在使用 OpenGL 互操作性(OpenGL Interoperability)和 Direct3D 互操作性(Direct3D Interoperability)中提到的函数进行映射之前,必须先将资源注册到 CUDA。这些函数会返回一个指向类型为。

2025-10-13 09:16:20 88

表格识别任务:基于opencv、机器学习对存在表格线任务进行识别

表格识别任务:基于opencv、机器学习对存在表格线任务进行识别

2025-04-07

大模型微调:Lora生成任务大模型模型微调示例demo

大模型微调:Lora生成任务大模型模型微调示例demo

2025-04-07

大模型微调:Lora进行自然语言理解任务示例demo

大模型微调:Lora进行自然语言理解任务示例demo,主要针对自然语言理解任务样例

2025-04-07

统计学习方法.李航 (1).pdf

《统计学习方法》是李航教授撰写的一本经典机器学习教材,系统介绍了统计学习的基本概念、核心算法和理论推导,涵盖感知机、朴素贝叶斯、决策树、支持向量机、隐马尔可夫模型等方法。语言简洁、数学推导清晰,是理解传统机器学习原理、构建理论基础的重要读物,深受学生与工程师欢迎。

2025-04-04

深度学习与交通大数据实战V2.0版

深度学习算法在交通大数据中应用,包含需求预测、流量预测、速度预测、不确定性时空建模

2025-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除