自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(594)
  • 收藏
  • 关注

原创 单调栈算法讲解

单调栈是一种维护元素单调性的栈结构,用于高效解决“查找元素左右第一个更大/更小值”的问题。其核心在于通过栈内元素的单调性(递增或递减)将时间复杂度优化至O(n)。常见应用包括:下一个更大元素、柱状图最大矩形、接雨水等。单调栈的关键在于栈内存储未找到答案的元素,通过延迟决策实现高效处理。典型题目如每日温度(计算更高温度的天数差)、移掉K位数字(贪心+单调栈)等,通常栈中存储下标以计算距离或区间。掌握单调栈的四种变体(递增/递减,左/右扫描)及其本质(延迟决策)是解题的关键。

2026-01-21 15:39:22 562

原创 排序算法分类及实现

排序算法可分为比较排序(如冒泡、快速排序)和非比较排序(如计数、基数排序)。常见分类方式包括时间复杂度、空间复杂度和稳定性。比较排序理论下限为O(n log n),而非比较排序可突破这一限制。典型算法实现包括:冒泡排序(稳定O(n²))、快速排序(不稳定O(n log n))、归并排序(稳定O(n log n))和堆排序(不稳定O(n log n))。非比较排序如计数排序在特定条件下可达O(n)时间复杂度,但需要额外空间。每种算法各有特点,适用于不同场景和数据特征。

2026-01-13 09:36:43 487

原创 动态规划分类及算法实现

动态规划是一种通过分解问题为重叠子问题并存储子问题解以提高效率的算法方法。其核心特点包括最优子结构、重叠子问题和状态转移方程。动态规划可分为多种类型:按状态转移方式分为线性DP、区间DP、树形DP等;按问题类型分为背包问题、序列问题等。文中给出了四个经典动态规划问题的实现:最长递增子序列(LIS)通过比较元素值更新状态矩阵;矩阵连乘问题通过区间分割优化计算顺序;0-1背包问题通过逆序遍历容量确保物品只选一次;二叉树盗贼问题通过递归处理节点选择与否的最大收益。这些算法展示了动态规划在不同场景下的灵活应用。

2026-01-12 10:42:38 701

原创 DDPO:使用强化学习训练扩散模型

扩散模型是一类灵活的生成模型,通常通过对对数似然目标的近似进行训练。然而,大多数扩散模型的使用场景并不关注似然性,而是关注诸如人类感知的图像质量或药效等下游目标。本文探讨了用于直接优化扩散模型以满足此类目标的强化学习方法。我们提出将去噪过程视为一个多步决策问题,从而引入一类策略梯度算法,我们称之为去噪扩散策略优化(denoising diffusion policy optimization,DDPO),该方法相较于奖励加权似然类方法更为高效。

2026-01-11 19:46:52 74

原创 DDPO:使用强化学习训练扩散模型

扩散模型是一类灵活的生成模型,通常通过对对数似然目标的近似进行训练。然而,大多数扩散模型的使用场景并不关注似然性,而是关注诸如人类感知的图像质量或药效等下游目标。本文探讨了用于直接优化扩散模型以满足此类目标的强化学习方法。我们提出将去噪过程视为一个多步决策问题,从而引入一类策略梯度算法,我们称之为去噪扩散策略优化(denoising diffusion policy optimization,DDPO),该方法相较于奖励加权似然类方法更为高效。

2026-01-08 09:44:34 87

原创 并查集的思想及代码实现

摘要:并查集是一种高效处理不相交集合合并与查询的树型数据结构,核心操作包括查找(带路径压缩优化)和合并(按秩合并)。其平均时间复杂度接近常数O(α(n)),适用于连通性问题、最小生成树算法等场景。典型实现包含父指针数组和秩数组,通过路径压缩和按秩合并保持高效性。并查集特别适合解决动态连通性问题,是图论和网络连接问题的重要工具。

2026-01-07 14:11:11 355

原创 CGPO:完美融合—用评审混合机制重塑RLHF

本文提出了 CGPO 框架,以解决大规模语言模型(LLM)后训练阶段在多任务学习(multi-task learning)中面临的关键挑战。CGPO 框架通过一种新颖的原始形式多约束强化学习方法(primal-type multi-constraint RL method)以及定制的多目标优化策略(multi-objective optimization strategy),有效缓解了 reward hacking 异质性和任务目标冲突等问题。

2026-01-07 09:20:54 69

原创 NEFTune:加入噪声的嵌入提升指令微调效果

我们发现,通过一种简单的数据增强方法,可以显著提升语言模型的微调效果。NEFTune 在训练过程中向嵌入向量添加噪声。在使用 Alpaca 对 LLaMA-2-7B 进行标准微调时,其在 AlpacaEval 上的表现为 29.79%,而使用带噪嵌入后则上升至 64.69%。NEFTune 在多个现代指令数据集上也优于强基线:使用 Evol-Instruct 微调的模型提升了 10%,使用 ShareGPT 提升了 8%,使用 OpenPlatypus 同样提升了 8%。

2026-01-07 09:14:01 57

原创 面向查找表量化 LLM 的快速矩阵乘法

大语言模型(LLMs)的部署常常受到内存带宽的限制,其主要瓶颈在于将模型参数从GPU全局内存传输到寄存器的成本。当结合能够融合反量化与矩阵乘法(matmul)操作的自定义kernel时,仅权重量化(weight-only quantization)能够通过减少内存传输量来实现更快的推理。然而,为权重量化的LLMs开发高性能kernel面临显著挑战,尤其是在权重被压缩为非整除比特宽度(如3比特)并采用非均匀查找表(LUT)量化时。本文提出FLUTE,一种面向LUT量化LLMs的灵活查找表引擎。

2026-01-06 19:40:03 85

原创 EfficientQAT:面向大语言模型的高效量化感知训练

本节介绍 EfficientQAT,这是一种面向 LLMs 的新型量化感知训练框架,旨在提升内存效率。如图 2 所示,传统 QAT 方法在端到端训练中同时更新权重 W 和量化参数 s(步长)以及 z(零点),由于涉及参数量过大,显著增加了内存需求。所有参数的分块训练(Block-AP)和量化参数的端到端训练(E2E-QP)。在 Block-AP 阶段,模型参数和量化参数逐块训练,使用重构损失,这不仅允许通过完整训练实现精确校准,还通过分块训练降低内存消耗(Li et al., 2021;

2026-01-06 19:34:07 102

原创 逐步蒸馏!用更少的训练数据和更小的模型规模超越更大的语言模型

我们提出 Distilling step-by-step,这是一种新机制:(a) 能够训练出性能优于 LLM 的小模型;(b) 且只需比 finetuning 或 distillation 更少的训练数据。我们的方法在 multi-task 框架中利用 LLM 的 rationales 作为额外的监督信号来训练小模型。

2025-12-25 10:43:18 70

原创 NLHF:基于人类反馈的纳什学习

基于人类反馈的强化学习(Reinforcement learning from human feedback, RLHF)已经成为将大型语言模型(LLMs)对齐于人类偏好的主要范式。传统上,RLHF 包括首先从成对的人类反馈中学习一个reward模型,即人类对文本生成对之间偏好的表达。随后,通过强化学习算法对LLM的policy进行微调,以最大化该reward。在本研究中,我们提出了一种用于LLM微调的替代流程,仍基于成对的人类反馈。我们的方法首先学习一个pairwise preference模型,该模型在

2025-12-06 09:50:44 75

原创 NLHF:基于人类反馈的纳什学习

在附录 G 中,我们报告了在文本摘要任务上的实验,并比较了多种 NLHF 算法(SelfPlay、对 µ 的 Best-Response、Nash-MD-PG 和 Nash-EMA-PG),以及一个 RLHF 基线方法。我们对所有模型进行了成对评估,评估方式是调用一个非常大的 LLM(PaLM 2 Large)(Anil 等,2023)以获得偏好信号,结果如表 1 所示。

2025-12-05 11:12:52 74

原创 BCO:用于大语言模型对齐的二分类器优化

在诸如 ChatGPT 等实际服务中,根据用户反馈对模型进行对齐对于提升模型性能至关重要。但大多数现有的对齐研究依赖偏好建模方法,需要成对的正负反馈样本。。该方法训练一个二分类器,其 logit 可作为隐式奖励,从而有效最小化 Direct Preference Optimization(DPO)损失。我们证明,分类器训练中使用的 binary cross-entropy(BCE)损失构成 DPO 损失的上界。此外,我们提出了一种新颖的 reward shift 技术,用于进一步缩小两种损失之间的差距。

2025-12-04 08:13:08 137

原创 SAC : 具有随机Actor的离策略最大熵深度强化学习

无模型的深度强化学习(RL)算法已在一系列具有挑战性的决策与控制任务中取得了成果。然而,这些方法通常面临两个主要挑战:极高的样本复杂度和收敛性能的不稳定性,这就需要对超参数进行精细调整。这两个问题严重限制了此类方法在复杂现实世界场景中的适用性。在本文中,我们提出了,这是一种基于的。在该框架中,actor 的目标是在,也就是说,在尽可能成功地完成任务的同时,尽可能以随机的方式执行动作。先前基于该框架的深度RL方法多以 Q-learning 方式实现。

2025-12-01 11:10:49 61

原创 KTO:将模型对齐视为前景理论优化

Kahneman 与 Tversky 的前景理论指出,人类以一种有偏但结构明确的方式感知随机变量(1992);例如,人类表现出明显的损失厌恶倾向。我们展示了,在使大语言模型(LLM)对齐于人类反馈的目标函数中,许多此类偏差已被隐含地纳入——这些目标函数(如 DPO)优于交叉熵最小化的部分原因,在于它们属于我们称之为人类感知损失函数(human-aware losses, HALOs)的函数族。然而,这些方法所假设的人类效用函数,仍然与前景理论文献中的形式存在差异。我们基于 Kahneman-Tversky

2025-11-27 10:36:08 196

原创 ORPO:无参考模型的一体化偏好优化

虽然近期针对语言模型的偏好对齐算法展现了良好的效果,但监督微调(SFT)仍然是实现成功收敛的必要步骤。本文研究了监督微调在偏好对齐中的关键作用,强调对不受欢迎生成风格施加轻微惩罚已足够实现偏好对齐的监督微调。基于此,我们提出了一种简单且创新的无参考模型一体化赔率比偏好优化算法——ORPO,免除了额外偏好对齐阶段的需求。我们从理论与实验两个方面证明,赔率比是监督微调过程中对比受欢迎与不受欢迎风格的合理选择,适用于从1.25亿到70亿参数的多种模型规模。

2025-11-27 10:31:56 69

原创 DPO:直接偏好优化:你的语言模型其实是一个奖励模型

若两个奖励函数。

2025-11-26 09:02:39 89

原创 使用深度强化学习进行连续控制

我们将深度Q学习成功的核心思想扩展到了连续动作域中。本文提出了一种基于确定性策略梯度的无模型actor-critic算法,能够处理连续动作空间。利用相同的学习算法、网络架构和超参数,该算法稳定地解决了20多个模拟物理任务,包括经典问题如倒立摆摆起(cartpole swing-up)、灵巧操作、足式行走以及自动驾驶等。我们的算法能够学习出策略,其性能可与拥有环境动力学和导数全部信息的规划算法相媲美。我们还进一步展示,对于许多任务,该算法可以实现“端到端”学习:直接从原始像素输入中学习策略。

2025-11-26 08:54:59 54

原创 用于深度强化学习的异步方法

我们提出了一个概念上简单且轻量的深度强化学习框架,该框架使用异步梯度下降来优化深度神经网络控制器。我们提出了四种标准强化学习算法的异步变体,并展示了并行的 actor-learner 对训练具有稳定作用,使得所有四种方法都能成功地训练神经网络控制器。表现最好的方法是 actor-critic 的异步变体,它在 Atari 环境中超越了当前的最先进方法,并且仅在一个多核 CPU(而非 GPU)上训练了一半的时间。

2025-11-25 09:05:42 60

原创 在 Actor-Critic 方法中应对函数近似误差

在基于值的强化学习方法(如深度 Q-learning)中,函数近似误差已知会导致价值估计的高估以及次优策略。我们证明了这个问题在 actor-critic 设置中同样存在,并提出了新的机制以最小化它对 actor 和 critic 的影响。我们的算法基于 Double Q-learning,通过取一对 critic 的最小值来限制高估现象。我们指出了目标网络与高估偏差之间的联系,并建议延迟策略更新以减少每次更新的误差,并进一步提升性能。

2025-11-25 08:58:01 213

原创 量化大型语言模型的评估

后训练量化(PTQ)作为一种有前景的技术,能够有效降低大型语言模型(LLMs)的计算成本。具体来说,PTQ可以显著减少LLMs的内存消耗和计算开销。为了在多样化场景下兼顾高效性和性能,全面评估量化后的LLMs显得尤为重要,以指导量化方法的选择。

2025-11-24 08:44:47 151

原创 EAGLE-2:通过动态草稿树加速语言模型推理

现代 Large Language Models(LLMs)的推理过程既昂贵又耗时,而 speculative sampling 已被证明是一种有效的解决方案。大多数 speculative sampling 方法(例如 EAGLE)使用静态的 draft tree,并默认 draft token 的接受率仅依赖于其位置。有趣的是,我们发现 draft token 的接受率也依赖于上下文。本文在 EAGLE 的基础上提出了,该方法引入了一种新的技术用于 draft 建模。

2025-11-24 08:39:29 240

原创 GEAR:一种高效的 KV Cache 压缩方法,用于几乎无损的大语言模型生成式推理

Key-value(KV)缓存已成为提升大语言模型(LLM)推理生成速度的事实标准技术。然而,随着序列长度的增加,缓存需求的不断增长使得LLM推理演变为一个受限于内存带宽的问题,显著限制了系统吞吐量。现有方法通常依赖于丢弃不重要的token或对条目进行分组量化。然而,这些方法在表示压缩矩阵时常常引入较大的近似误差。自回归解码过程进一步在每个步骤中累积误差,导致模型生成结果的严重偏离与性能下降。为了解决这一问题,我们提出了。

2025-11-10 14:41:05 134

原创 压缩上下文以提升大语言模型的推理效率

表1中,我们首先比较了 Selective Context 与原始上下文的性能,以评估 Selective Context 在降低上下文开销时对有用信息的保留效果。指标为第4.2节所述所有模型的平均值,括号内为性能下降幅度。如表中所示,当压缩比例设置为0.2或0.35时,Selective Context 仅带来了微小的性能下降,尽管上下文开销显著减少。当压缩20%的内容时,BLEU 分数仅下降了0.05;ROUGE-1 的下降更小,仅为0.03。

2025-11-10 14:35:10 159

原创 DISTILLM:迈向大型语言模型的简化蒸馏方法

我们使用两个数据集 —— SAMSum(Gliwa et al., 2019)和 IWSLT 2017(Cettolo et al., 2017)—— 来评估任务特定语言模型在摘要和翻译任务上的效果。对于 SAMSum 数据集,我们使用 T5-XL v1.1(Raffel et al., 2020)作为教师模型,T5-Base/-Small v1.1 作为学生模型。

2025-11-06 10:30:50 71

原创 DUOATTENTION:结合检索与流式注意力机制的高效长上下文大语言模型推理方法

第 2.1 节中我们从定性角度区分了 retrieval 头与 streaming 头,而要进行精确识别,还需要一个明确且量化的定义。本文将。

2025-11-06 10:22:20 121

原创 DISTILLM:迈向大型语言模型的简化蒸馏方法

我们使用两个数据集 —— SAMSum(Gliwa et al., 2019)和 IWSLT 2017(Cettolo et al., 2017)—— 来评估任务特定语言模型在摘要和翻译任务上的效果。对于 SAMSum 数据集,我们使用 T5-XL v1.1(Raffel et al., 2020)作为教师模型,T5-Base/-Small v1.1 作为学生模型。

2025-11-05 10:02:31 126

原创 DUOATTENTION:结合检索与流式注意力机制的高效长上下文大语言模型推理方法

第 2.1 节中我们从定性角度区分了 retrieval 头与 streaming 头,而要进行精确识别,还需要一个明确且量化的定义。本文将。

2025-11-05 09:54:26 156

原创 decoupleQ:通过将参数解耦为整数与浮点数,实现2比特后训练统一量化

decoupleQ将模型参数解耦为整数部分和浮点部分,然后交替优化这两部分。这个优化过程包含两个阶段:在层级最小化阶段,我们将量化问题转化为一个纯粹的数学约束优化问题(公式(6));而在块级最小化阶段,我们冻结整数部分,然后微调浮点部分。decoupleQ 的风险主要来自两个方面:一方面,最小化某一层或某一块输出的 ℓ₂ 损失在多大程度上与模型精度相关;另一方面,decoupleQ 容易对校准数据集产生过拟合。

2025-11-04 16:10:48 83

原创 EAGLE:推测采样需要重新思考特征不确定性

自回归解码使得大语言模型(LLMs)的推理过程耗时较长。本文重新审视了推测采样(speculative sampling),并提出两个关键观察。首先,在(即倒数第二层)进行自回归比在更为直接。其次,特征层面自回归中限制了其性能。基于这些见解,我们提出了,一个简单但高效的推测采样框架。通过引入前推一个时间步的 token 序列,EAGLE 有效缓解了特征层面的不确定性,从而以极低的计算开销,实现了对倒数第二层特征的精准预测。

2025-11-04 16:02:31 83

原创 DeepSeek-OCR:上下文光学压缩

我们提出了,作为一种通过光学二维映射压缩长上下文的可行性初步研究。和(作为解码器)。具体而言,DeepEncoder 作为核心引擎,被设计用于在高分辨率输入下保持较低的激活量,同时实现高压缩率,以确保视觉token的数量在最优且可控的范围内。实验结果表明,当文本token数量在视觉token数量的10倍以内(即压缩率 < 10×)时,模型可以达到97%的解码(OCR)精度。即使在压缩率达到20×时,OCR准确率仍保持在约60%。

2025-11-03 11:06:34 135

原创 decoupleQ:通过将参数解耦为整数与浮点数,实现2比特后训练统一量化

decoupleQ将模型参数解耦为整数部分和浮点部分,然后交替优化这两部分。这个优化过程包含两个阶段:在层级最小化阶段,我们将量化问题转化为一个纯粹的数学约束优化问题(公式(6));而在块级最小化阶段,我们冻结整数部分,然后微调浮点部分。decoupleQ 的风险主要来自两个方面:一方面,最小化某一层或某一块输出的 ℓ₂ 损失在多大程度上与模型精度相关;另一方面,decoupleQ 容易对校准数据集产生过拟合。

2025-10-29 10:05:33 60

原创 EAGLE:推测采样需要重新思考特征不确定性

自回归解码使得大语言模型(LLMs)的推理过程耗时较长。本文重新审视了推测采样(speculative sampling),并提出两个关键观察。首先,在(即倒数第二层)进行自回归比在更为直接。其次,特征层面自回归中限制了其性能。基于这些见解,我们提出了,一个简单但高效的推测采样框架。通过引入前推一个时间步的 token 序列,EAGLE 有效缓解了特征层面的不确定性,从而以极低的计算开销,实现了对倒数第二层特征的精准预测。

2025-10-29 09:59:16 79

原创 大语言模型的知识蒸馏综述

知识蒸馏在人工智能(AI)和深度学习(DL)领域指的是将知识从大型复杂模型(教师模型)转移到较小且更高效的模型(学生模型)的过程(Gou et al., 2021)。该技术在缓解部署大规模模型时面临的计算需求和资源限制方面起到了关键作用。在LLMs时代之前,知识蒸馏技术主要集中于将知识从复杂且通常较为笨重的神经网络转移到更紧凑高效的架构上(Sanh et al., 2019;这一过程主要源于在资源受限环境中部署机器学习模型的需求,如移动设备或边缘计算平台,这些环境中计算能力和内存有限。

2025-10-27 20:44:36 189

原创 COAT: 压缩优化器状态和激活以实现内存高效的FP8训练

给定一个包含。

2025-10-27 16:30:03 96

原创 CacheGen:用于快速大语言模型推理服务的 KV 缓存压缩与流式传输

随着大语言模型(LLMs)处理的任务日益复杂,其输入通常需要补充更长的上下文以整合领域知识。然而,使用长上下文面临挑战:在整个上下文被模型处理完之前,模型无法开始生成任何内容。虽然可以通过在不同输入间复用上下文的 KV 缓存来减少处理延迟,但由于 KV 缓存包含大型张量,跨网络获取这些缓存会引入较高的额外网络延迟。是一个用于 LLM 系统的快速上下文加载模块。首先,CacheGen 利用 KV 缓存的分布特性,通过自定义张量编码器将 KV 缓存编码为更紧凑的比特流表示,在几乎无解码开销的前提下大幅节省带宽。

2025-10-24 11:06:19 171

原创 CacheBlend:结合缓存知识融合的快速RAG大语言模型推理服务

大语言模型(LLMs)通常在输入中包含多个文本片段,以提供必要的上下文。为了加速对较长LLM输入的预填充(prefill),可以预先计算文本的KV缓存,并在该上下文作为另一个LLM输入前缀时复用KV缓存。然而,被复用的文本片段并不总是作为输入前缀,这导致预计算的KV缓存无法直接使用,因为它们忽略了该文本与前置文本之间的交叉注意力。因此,KV缓存复用的优势在很大程度上尚未被实现。

2025-10-24 10:46:54 213

原创 Deja Vu: 利用上下文稀疏性提升大语言模型推理效率

设常数。

2025-10-23 10:24:32 174

原创 Block Transformer:面向快速推理的全局到局部语言建模

我们提出了,它将分层的全局到局部建模方法引入自回归 transformer,以缓解自注意力机制在推理过程中的瓶颈。自注意力机制需要在每一步解码时,从内存中检索所有历史序列的 key-value(KV)缓存以获取上下文信息,这在批量推理时导致两个主要瓶颈。首先,在获取首个 token 时存在显著延迟,因为必须先处理整个提示信息以预填充 KV 缓存。其次,后续 token 的计算受限于高内存 I/O 需求,需要读取整个 KV 缓存,而其大小随着序列长度线性增长,最终导致整体二次的内存读取开销。我们设计。

2025-10-23 10:16:09 85

表格识别任务:基于opencv、机器学习对存在表格线任务进行识别

表格识别任务:基于opencv、机器学习对存在表格线任务进行识别

2025-04-07

大模型微调:Lora生成任务大模型模型微调示例demo

大模型微调:Lora生成任务大模型模型微调示例demo

2025-04-07

大模型微调:Lora进行自然语言理解任务示例demo

大模型微调:Lora进行自然语言理解任务示例demo,主要针对自然语言理解任务样例

2025-04-07

统计学习方法.李航 (1).pdf

《统计学习方法》是李航教授撰写的一本经典机器学习教材,系统介绍了统计学习的基本概念、核心算法和理论推导,涵盖感知机、朴素贝叶斯、决策树、支持向量机、隐马尔可夫模型等方法。语言简洁、数学推导清晰,是理解传统机器学习原理、构建理论基础的重要读物,深受学生与工程师欢迎。

2025-04-04

深度学习与交通大数据实战V2.0版

深度学习算法在交通大数据中应用,包含需求预测、流量预测、速度预测、不确定性时空建模

2025-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除