AI专题精讲
更多专题内容,欢迎关注微信公众号:AI专题精讲
最新论文分享网站:www.aizhuanlan.net
数学公式Latex识别: www.aikitbox.net
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DDPO:使用强化学习训练扩散模型
扩散模型是一类灵活的生成模型,通常通过对对数似然目标的近似进行训练。然而,大多数扩散模型的使用场景并不关注似然性,而是关注诸如人类感知的图像质量或药效等下游目标。本文探讨了用于直接优化扩散模型以满足此类目标的强化学习方法。我们提出将去噪过程视为一个多步决策问题,从而引入一类策略梯度算法,我们称之为去噪扩散策略优化(denoising diffusion policy optimization,DDPO),该方法相较于奖励加权似然类方法更为高效。原创 2026-01-11 19:46:52 · 83 阅读 · 0 评论 -
DDPO:使用强化学习训练扩散模型
扩散模型是一类灵活的生成模型,通常通过对对数似然目标的近似进行训练。然而,大多数扩散模型的使用场景并不关注似然性,而是关注诸如人类感知的图像质量或药效等下游目标。本文探讨了用于直接优化扩散模型以满足此类目标的强化学习方法。我们提出将去噪过程视为一个多步决策问题,从而引入一类策略梯度算法,我们称之为去噪扩散策略优化(denoising diffusion policy optimization,DDPO),该方法相较于奖励加权似然类方法更为高效。原创 2026-01-08 09:44:34 · 106 阅读 · 0 评论 -
CGPO:完美融合—用评审混合机制重塑RLHF
本文提出了 CGPO 框架,以解决大规模语言模型(LLM)后训练阶段在多任务学习(multi-task learning)中面临的关键挑战。CGPO 框架通过一种新颖的原始形式多约束强化学习方法(primal-type multi-constraint RL method)以及定制的多目标优化策略(multi-objective optimization strategy),有效缓解了 reward hacking 异质性和任务目标冲突等问题。原创 2026-01-07 09:20:54 · 81 阅读 · 0 评论 -
NEFTune:加入噪声的嵌入提升指令微调效果
我们发现,通过一种简单的数据增强方法,可以显著提升语言模型的微调效果。NEFTune 在训练过程中向嵌入向量添加噪声。在使用 Alpaca 对 LLaMA-2-7B 进行标准微调时,其在 AlpacaEval 上的表现为 29.79%,而使用带噪嵌入后则上升至 64.69%。NEFTune 在多个现代指令数据集上也优于强基线:使用 Evol-Instruct 微调的模型提升了 10%,使用 ShareGPT 提升了 8%,使用 OpenPlatypus 同样提升了 8%。原创 2026-01-07 09:14:01 · 70 阅读 · 0 评论 -
NLHF:基于人类反馈的纳什学习
基于人类反馈的强化学习(Reinforcement learning from human feedback, RLHF)已经成为将大型语言模型(LLMs)对齐于人类偏好的主要范式。传统上,RLHF 包括首先从成对的人类反馈中学习一个reward模型,即人类对文本生成对之间偏好的表达。随后,通过强化学习算法对LLM的policy进行微调,以最大化该reward。在本研究中,我们提出了一种用于LLM微调的替代流程,仍基于成对的人类反馈。我们的方法首先学习一个pairwise preference模型,该模型在原创 2025-12-06 09:50:44 · 88 阅读 · 0 评论 -
NLHF:基于人类反馈的纳什学习
在附录 G 中,我们报告了在文本摘要任务上的实验,并比较了多种 NLHF 算法(SelfPlay、对 µ 的 Best-Response、Nash-MD-PG 和 Nash-EMA-PG),以及一个 RLHF 基线方法。我们对所有模型进行了成对评估,评估方式是调用一个非常大的 LLM(PaLM 2 Large)(Anil 等,2023)以获得偏好信号,结果如表 1 所示。原创 2025-12-05 11:12:52 · 83 阅读 · 0 评论 -
BCO:用于大语言模型对齐的二分类器优化
在诸如 ChatGPT 等实际服务中,根据用户反馈对模型进行对齐对于提升模型性能至关重要。但大多数现有的对齐研究依赖偏好建模方法,需要成对的正负反馈样本。。该方法训练一个二分类器,其 logit 可作为隐式奖励,从而有效最小化 Direct Preference Optimization(DPO)损失。我们证明,分类器训练中使用的 binary cross-entropy(BCE)损失构成 DPO 损失的上界。此外,我们提出了一种新颖的 reward shift 技术,用于进一步缩小两种损失之间的差距。原创 2025-12-04 08:13:08 · 149 阅读 · 0 评论 -
SAC : 具有随机Actor的离策略最大熵深度强化学习
无模型的深度强化学习(RL)算法已在一系列具有挑战性的决策与控制任务中取得了成果。然而,这些方法通常面临两个主要挑战:极高的样本复杂度和收敛性能的不稳定性,这就需要对超参数进行精细调整。这两个问题严重限制了此类方法在复杂现实世界场景中的适用性。在本文中,我们提出了,这是一种基于的。在该框架中,actor 的目标是在,也就是说,在尽可能成功地完成任务的同时,尽可能以随机的方式执行动作。先前基于该框架的深度RL方法多以 Q-learning 方式实现。原创 2025-12-01 11:10:49 · 72 阅读 · 0 评论 -
GKD:语言模型的策略内蒸馏:从自身生成的错误中学习
首先在抽象摘要任务中评估GKD,即生成能够抓取输入文档核心内容的摘要。我们使用XSum数据集(Narayan等,2018),包含新闻文章及其人工撰写的摘要。参考PaLM(Chowdhery等,2022),在XSum验证集上使用ROUGE-2分数(Lin, 2004)评价预测摘要的质量,同时观察到ROUGE-L和ROUGE-1的趋势一致。学生模型为在XSum上经过监督微调的T5系列,教师模型为微调后的T5-XL。更多实验细节见附录A.3。与基线方法的比较。原创 2025-11-30 20:55:57 · 137 阅读 · 0 评论 -
KTO:将模型对齐视为前景理论优化
Kahneman 与 Tversky 的前景理论指出,人类以一种有偏但结构明确的方式感知随机变量(1992);例如,人类表现出明显的损失厌恶倾向。我们展示了,在使大语言模型(LLM)对齐于人类反馈的目标函数中,许多此类偏差已被隐含地纳入——这些目标函数(如 DPO)优于交叉熵最小化的部分原因,在于它们属于我们称之为人类感知损失函数(human-aware losses, HALOs)的函数族。然而,这些方法所假设的人类效用函数,仍然与前景理论文献中的形式存在差异。我们基于 Kahneman-Tversky原创 2025-11-27 10:36:08 · 212 阅读 · 0 评论 -
ORPO:无参考模型的一体化偏好优化
虽然近期针对语言模型的偏好对齐算法展现了良好的效果,但监督微调(SFT)仍然是实现成功收敛的必要步骤。本文研究了监督微调在偏好对齐中的关键作用,强调对不受欢迎生成风格施加轻微惩罚已足够实现偏好对齐的监督微调。基于此,我们提出了一种简单且创新的无参考模型一体化赔率比偏好优化算法——ORPO,免除了额外偏好对齐阶段的需求。我们从理论与实验两个方面证明,赔率比是监督微调过程中对比受欢迎与不受欢迎风格的合理选择,适用于从1.25亿到70亿参数的多种模型规模。原创 2025-11-27 10:31:56 · 90 阅读 · 0 评论 -
DPO:直接偏好优化:你的语言模型其实是一个奖励模型
若两个奖励函数。原创 2025-11-26 09:02:39 · 102 阅读 · 0 评论 -
使用深度强化学习进行连续控制
我们将深度Q学习成功的核心思想扩展到了连续动作域中。本文提出了一种基于确定性策略梯度的无模型actor-critic算法,能够处理连续动作空间。利用相同的学习算法、网络架构和超参数,该算法稳定地解决了20多个模拟物理任务,包括经典问题如倒立摆摆起(cartpole swing-up)、灵巧操作、足式行走以及自动驾驶等。我们的算法能够学习出策略,其性能可与拥有环境动力学和导数全部信息的规划算法相媲美。我们还进一步展示,对于许多任务,该算法可以实现“端到端”学习:直接从原始像素输入中学习策略。原创 2025-11-26 08:54:59 · 59 阅读 · 0 评论 -
用于深度强化学习的异步方法
我们提出了一个概念上简单且轻量的深度强化学习框架,该框架使用异步梯度下降来优化深度神经网络控制器。我们提出了四种标准强化学习算法的异步变体,并展示了并行的 actor-learner 对训练具有稳定作用,使得所有四种方法都能成功地训练神经网络控制器。表现最好的方法是 actor-critic 的异步变体,它在 Atari 环境中超越了当前的最先进方法,并且仅在一个多核 CPU(而非 GPU)上训练了一半的时间。原创 2025-11-25 09:05:42 · 66 阅读 · 0 评论 -
在 Actor-Critic 方法中应对函数近似误差
在基于值的强化学习方法(如深度 Q-learning)中,函数近似误差已知会导致价值估计的高估以及次优策略。我们证明了这个问题在 actor-critic 设置中同样存在,并提出了新的机制以最小化它对 actor 和 critic 的影响。我们的算法基于 Double Q-learning,通过取一对 critic 的最小值来限制高估现象。我们指出了目标网络与高估偏差之间的联系,并建议延迟策略更新以减少每次更新的误差,并进一步提升性能。原创 2025-11-25 08:58:01 · 218 阅读 · 0 评论 -
【场景应用11】难例反复训练仍无果,模型“记不住”怎么办?
困难样本挖掘(Hard Example Mining)每轮训练中动态挑选预测错误的样本,加权训练,强化模型对其学习。可使用 Online Hard Example Mining(OHEM)等策略。难例重加权训练(Focal Loss / 样本加权)对难学的样本给更高的 loss 权重,比如使用 Focal Loss 或自定义样本 loss 权重。对抗训练 / 数据增强人工合成或扰动难例生成更难的变体,增加模型鲁棒性。记忆增强机制(Memory Bank / kNN辅助)原创 2025-04-17 15:22:28 · 281 阅读 · 0 评论 -
【场景应用10】一种基于MLP-Mixer架构的轻量级时间序列建模方法
在本文中,我们提供了一个逐步指南,介绍如何利用 PatchTSMixer 进行与预测和迁移学习相关的任务。我们的目标是促进 PatchTSMixer HF 模型在您的预测用例中的顺利集成。我们相信,这篇内容将作为一个有用的资源,帮助您更快地采用 PatchTSMixer。tsfm。原创 2025-04-17 09:05:24 · 434 阅读 · 0 评论 -
【场景应用9】多语言预训练语音模型进行自动语音识别
多语言语音模型是一种用多种语言的语音数据联合预训练的模型,它可以提取语言无关的语音特征,从而适用于多种语言的 ASR 任务,而不必为每种语言单独训练一个模型。(Facebook)(OpenAI)(Facebook)(Meta,支持翻译 + 识别)原创 2025-04-16 14:32:38 · 445 阅读 · 0 评论 -
【场景应用8】在TPU上使用Flax/JAX对masked_language_modeling模型进行预训练
首先,我们创建一个目录来保存模型的所有相关文件,包括模型的配置文件、分词器的JSON文件以及模型权重。我们将这个目录命名为language } " # 创建目录名,包含模型架构和语言信息,例如"roberta-base-pretrained-is"language } " # 创建目录名,包含模型架构和语言信息,例如"roberta-base-pretrained-is"原创 2025-04-15 09:43:50 · 178 阅读 · 0 评论 -
【场景应用7】在TPU上使用Flax/JAX对Transformers模型进行语言模型预训练
首先,我们创建一个目录,用于保存模型的所有相关文件,包括模型的配置文件、tokenizer的JSON文件以及模型的权重。我们将该目录命名为。language } " # model_dir是模型文件保存的目录名,将model_config(例如"distilgpt2")与"-pretrained-"和language(例如"is")拼接,结果为"distilgpt2-pretrained-is"原创 2025-04-14 11:05:23 · 327 阅读 · 0 评论 -
【场景应用6】Autoformer在时间序列预测任务中的应用
接下来,我们定义数据的转换,特别是时间特征的创建(基于数据集或通用特征)。我们定义了一个来自GluonTS的Chain转换(这有点类似于用于图像)。它允许我们将多个转换组合成一个单一的管道。下面的转换包含注释,解释它们的作用。Chain,SetField,# 创建一个字段名列表,稍后移除不需要的字段if config.num_static_real_features == 0: # 如果没有静态实数特征,加入移除字段列表。原创 2025-04-13 16:23:26 · 241 阅读 · 0 评论 -
【场景应用5】深入探讨去噪扩散概率模型及训练推理过程
为了推导出学习反向过程均值的目标函数,作者观察到,q 和 p 组合可以看作一个变分自编码器(VAE)(Kingma 等,2013)。因此,可以使用变分下界(也称为 ELBO)来最小化相对于真实数据样本 xo 的负对数似然(有关 ELBO 的详细信息,请参考 VAE 论文)。事实证明,这个过程的 ELBO 是在每个时间步骤 t 上损失的总和,即LL0L1LTLL0L1...LT。原创 2025-04-12 19:15:53 · 366 阅读 · 0 评论 -
【场景应用4】基于 Segment Anything Model(SAM)的图像分割掩码生成与模型推理流程
本笔记展示了如何使用 Segment Anything Model(SAM)在任意图像上自动生成 segmentation mask。该模型由 Meta AI 在论文中发布。原始源码可以在找到。针对 SAM 新发布的 mask 生成流程,会在图像上创建一个 1024 的网格(grid),然后将其按照 points_per_batch 的批量输入到模型中。这些示例参考了作者的原始笔记本。原创 2025-04-11 14:44:04 · 486 阅读 · 0 评论 -
【场景应用3】audio_classification:音频分类的微调
近年来,Transformer模型在自然语言处理(NLP)任务中的成功引发了其在其他领域,尤其是音频处理中的广泛应用。传统的音频分类方法依赖于卷积神经网络(CNN)和递归神经网络(RNN),但这些方法在处理长时序数据时存在一定的局限性。Transformer架构通过自注意力机制,能够更好地捕捉全局特征,解决了传统方法中长时依赖的难题。Wav2Vec2作为一种基于Transformer的预训练模型,已在多个音频处理任务中取得了显著的成果。原创 2025-04-10 09:14:02 · 685 阅读 · 0 评论 -
【场景应用2】speech_recognition: 微调语音模型
本笔记演示如何对多语言预训练语音模型进行微调,以用于自动语音识别任务。本笔记设计用于在 TIMIT 数据集上运行,支持使用 Model Hub 中任何带有 Connectionist Temporal Classification (CTC) 头的语音模型检查点。根据所选模型和使用的 GPU 配置,可能需要调整 batch size 以避免内存溢出错误。在开始之前,我们需要安装最新版的datasets和transformers库。原创 2025-04-09 17:40:16 · 299 阅读 · 0 评论 -
【场景应用1】微调语言模型:从数据加载到模型训练、模型评估
微调技术是通过在预训练模型的基础上对特定任务进行再训练,优化模型参数,使其适应特定任务或数据集。预训练模型(如BERT、GPT、DistilBERT等)已经通过大规模的无监督数据进行训练,具备了一定的语言理解能力和生成能力。微调的目标是在这个基础上进一步训练,使模型能够在具体的下游任务中表现更好。对于语言建模任务,微调通常会使用两种不同的策略:因果语言建模(CLM)和掩码语言建模(MLM)。这两种任务分别侧重于语言生成和语言理解,它们的训练目标和方法各有不同。原创 2025-04-08 10:45:16 · 356 阅读 · 0 评论 -
torch.nn.functional.pad使用详解
是 PyTorch 中用于对张量进行填充的函数。填充(Padding)指在张量的边缘添加额外元素的操作,常见于图像处理等场景(例如为图像添加边框)。Tensor: 填充后的张量。原创 2025-04-06 11:35:44 · 519 阅读 · 0 评论 -
深度学习优化:线性预热 & 学习率调度全解析
对模型的收敛速度和最终性能至关重要。不同的学习率调度策略可以帮助模型在训练早期快速收敛,同时在后期避免震荡或陷入局部最优。在深度学习训练过程中,原创 2025-03-30 16:16:27 · 406 阅读 · 0 评论 -
torch模型导出onnx报错[ CPULongType{} ]) of traced region did not have observable data dependence
因为在 ONNX 转换时,模型的输出必须是张量 (tensor),而不能是列表 (list)、元组 (tuple) 或字典 (dict)。您可以检查一下模型的。原创 2025-02-14 10:01:09 · 205 阅读 · 0 评论 -
解释下torch中的scatter_add_
这种操作可以在许多需要按指定位置进行累加的场景中使用,尤其是当数据以稀疏形式存储时。通过。原创 2025-01-02 20:01:51 · 338 阅读 · 0 评论 -
torchvision.utils.make_grid 解释下
是 PyTorch 中库提供的一个实用函数,用于将多个图像拼接成一个网格,方便进行可视化。原创 2024-12-30 20:15:03 · 368 阅读 · 0 评论 -
多分类的损失函数
在多分类任务中,常用的损失函数能够衡量模型输出的类别分布与目标类别之间的差异,帮助模型学习更准确的分类能力。原创 2024-12-30 20:10:15 · 560 阅读 · 0 评论 -
F.affine_grid 解释下
用于生成仿射变换的坐标网格。通过提供仿射变换矩阵和目标图像的尺寸,它生成一个表示每个像素变换后位置的网格。该网格可以用于进行图像采样,从而获得变换后的图像。这种方法广泛应用于空间变换网络(STN)和其他图像变换任务中,如图像旋转、缩放和仿射变换。原创 2024-12-30 19:34:29 · 402 阅读 · 0 评论 -
解释下nn.AdaptiveAvgPool2d
是 PyTorch 中的一个平均池化层,用于将输入的特征图调整到指定的输出大小(宽和高)。它会根据输入大小和目标输出大小自动计算合适的池化窗口和步幅,无需手动设置这些参数。原创 2024-12-29 09:34:26 · 505 阅读 · 0 评论 -
LSTM详解
*长短期记忆网络(LSTM, Long Short-Term Memory)**是一种特殊的循环神经网络(RNN),特别适合处理和预测序列数据中的长时间依赖关系。LSTM 通过引入“门机制”(如输入门、遗忘门、输出门)来解决标准 RNN 在长时间序列任务中梯度消失或梯度爆炸的问题。双向 LSTM 同时处理前向和后向序列,输出是两部分隐藏状态的拼接。LSTM 的强大之处在于其对长时间序列数据的建模能力。LSTM 的核心是一个。原创 2024-12-13 17:00:52 · 427 阅读 · 0 评论 -
momentum 和 weight_decay 的区别
的正则项,约束权重的大小,抑制模型对训练数据的过度拟合。在更新权重时,这种惩罚会让权重值逐渐减小,过大的衰减系数。两者在优化器中的作用不同,主要体现在优化的目的和机制上。在实际应用中,两者通常可以结合使用。:加速收敛并减少优化过程中的震荡。则用于模型的正则化和控制复杂度。)是通过向损失函数加入。用于优化训练过程,而。原创 2024-12-05 10:22:40 · 266 阅读 · 0 评论 -
exp_lr_scheduler理解
学习率调度器通过分阶段调整学习率,有助于更有效地训练模型。原创 2024-12-03 19:53:31 · 385 阅读 · 0 评论 -
DistributedDataParallel数据切分及模型优化机制
nproc_per_node=4会把数据分成4份么,不同进程之间看不到另一个进程数据么,如果看不到,模型咋优化?的作用是启动 4 个进程,每个进程负责一个 GPU。尽管数据被划分,每个进程只看到了部分数据,但模型的参数仍然是。(DDP) 来实现的。在每个 epoch 开始时,调用。在分布式训练中,数据的划分由。原创 2024-11-22 10:59:31 · 171 阅读 · 0 评论 -
nn.Conv2d实现
如果不使用 PyTorch 内置的。原创 2024-11-16 17:09:14 · 207 阅读 · 0 评论 -
pytorch分布式数据并行DDP
该代码展示了如何通过 PyTorch 的分布式框架在多个 GPU 上并行训练模型。它利用进行梯度同步,通过进行数据分割,mp.spawn创建并管理多进程。原创 2024-11-04 18:50:10 · 760 阅读 · 0 评论
分享