cv2016_DL-CSDN博客

原创多阶段 RL（先数学，后代码）训练策略分析与实战启发

尽管在大规模强化学习（RL）用于推理任务方面取得了进展，但构建高性能推理模型的训练方法仍然不明确。现有的前沿模型，如 DeepSeek-R1，通常省略了关键的实现细节，如数据策划策略和 RL 训练方法。此外，对于小型和中型模型，蒸馏（distillation）通常比 RL 更有效。NVIDIA 研究团队推出了 AceReason-Nemotron的研究项目，该项目通过大规模强化学习（Reinforcement Learning, RL）显著提升了小型和中型语言模型在数学和代码推理任务上的表现。

2025-06-09 11:02:41 725

原创 PPO算法流程详解

今天介绍 PPO 流程的时候我也会把这几个区别点作为重点，进行介绍：PPO 多了个 Value Model 和输出 v（value）计算 A（Advantage）的算法是 GAEKL 散度计算作用于 Reward Model另外，有篇科普 PPO 的文章非常经典，通过把 PPO 算法拆解为 10 个步骤进行了详细地介绍，而且对于一些算法背后的原理也做了解释。

2025-06-09 09:50:53 702

原创 PPO和GRPO算法

verl 是现在非常火的 rl 框架，而且已经支持了多个 rl 算法（ppo、grpo 等等）。过去对 rl 的理解很粗浅（只知道有好多个角色，有的更新权重，有的不更新），也曾硬着头皮看了一些论文和知乎，依然有很多细节不理解，现在准备跟着 verl 的代码梳理一遍两个著名的 rl 算法，毕竟代码不会隐藏任何细节！虽然 GRPO 算法是基于 PPO 算法改进来的，但是毕竟更简单，所以我先从 GRPO 的流程开始学习，然后再看 PPO。

2025-06-03 14:27:25 859

原创 InternLM2/LM2.5/ViT/VL1.5/VL2.0笔记: 核心点解析

本文主要是记录一下关于多模态大模型InternLM/InternVL系列的一些要点的理解。还是那句话，好记性，不如烂笔头。本文当成个人笔记用，行文风格和先前写的LLaVA系列一致。本文的重点是讲解多模态模型InternVL 1.5，但是InternVL 1.5选择了InternLM2作为LLM底座，以及使用InternViT-6B作为视觉理解模型。因此，本文也先从InternLM2和InternViT开始讲起。InternLM2和InternViT以简单说明为主。

2025-06-03 11:36:39 1161

原创爱芯元智芯片推理cn-clip

cnclip_config_npu3_U8.json文件。1.下载依赖的opencv和onnxruntime。打开cmakelist.txt,在开头增加。下载feature_matmul.onnx。2.cmakelist修改。

2025-05-26 18:51:38 1015

原创为什么要用位置编码？

在 NLP 任务中（后续拓展为多模态任务），顺序信息至关重要，例如: 我借给你 300 块与你借给我 300 块具有完全不同的含义。对于 Transformer 模型来说，由于 Attention 模块的无序性（无法区分不同位置的 Token），必须加入额外的信息来记录顺序，这里引入了位置编码。位置编码在后续基于 Transformer 架构的文章中有很多不同的实现方式，尤其是在大语言模型大行其道的现在，在面对长 token 的输入时，挑选合适的位置编码也会提升训练的效果。

2025-05-26 14:19:29 814

原创大模型RL方向面试题90道

推理扩展定律表明，延长模型的推理时间可以显著提升其性能。模型通过更长时间的思考和自我修正，能够生成更准确的答案。然而，这种提升需要根据任务类型进行权衡。1.MC方法高方差：由于依赖完整的Episode回报，更新值可能受到随机因素的较大影响。无偏性：直接使用实际累积回报进行更新，确保了长期的准确性。2.TD方法低方差：利用每一步的即时奖励进行更新，减少了因随机性导致的波动。高偏差：依赖当前估计值进行更新，容易引入偏差，尤其是初始估计不准确时。3.GAE方法折中性。

2025-05-26 12:05:15 1081

原创为什么大模型的损失函数采用交叉熵而不是 MSE？

这个问题不只是局限在大模型的损失函数，可以扩展为：为什么分类的损失函数采用交叉熵而不是 MSE？之所以这么做的原因，根本上是因为机器学习做的事情就是在做最大似然估计(MLE), 当然贝叶斯学派是在做最大后验概率估计(MAP)。

2025-05-21 10:16:00 325

原创 DPO的变体有哪些，主要解决DPO的什么问题？

IPO [3]：BT model旨在最大化正负response之间的reward gap，然而在实际中，我们所用的pair数据可能存在噪声，若一味扩大reward gap，就会出现不准确的情况，即对preference的pair数据产生过拟合。对此，DPOP引入一项新机制，对正例概率下降的pair进行惩罚，以促使正例概率得以提升。RSO [1]：鉴于DPO在蒙特卡洛采样上存在较大难度，导致其采样方式近乎为off-policy，RSO着重针对DPO的采样机制展开优化，以此攻克DPO所面临的问题。

2025-05-19 14:24:08 380

原创从零开始训练一个简单的CLIP

到这里，你已经基本了解了CLIP的基本原理，并且能够自己动手训练一个简单的CLIP模型。整体上来看，代码比较简单，但是已经基本覆盖到CLIP的整体训练流程了。另外，如果需要实际的落地，建议还是使用openclip等更加成熟的框架。欢迎关注github：https://github.com/taishan1994。

2025-05-19 14:18:03 1152

原创多模态大模型入门必读基础论文

paper地址：或项目地址：论文讲解：《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》论文地址：论文讲解：《Learning Transferable Visual Models From Natural Language Supervision》论文地址：代码：论文解读：《Improving Language Understanding by Generative Pre-Training》

2025-05-16 17:13:28 487

原创论文分享 | DPO

论文标题：Direct Preference Optimization: Your Language Model is Secretly a Reward Model发表年份：2023会议/期刊：NeurIPS论文链接：>> https://proceedings.neurips.cc/paper_files/paper/2023/hash/a85b405ed65c6477a4fe8302b5e06ce7-Abstract-Conference.html。

2025-05-12 12:00:19 915

原创 RLHF 实践：原理、代码、踩坑以及解决方案

最近倒腾了一波RLHF，从ColossalAI到TRLX以及DeepSpeed-Chat，最后基于DeepSpeed-Chat成功训练上了自己的模型，最后效果也是肉眼可见的提升。对这一部分进行下总结，包括原理，代码以及踩坑与解决方案。

2025-05-12 11:48:44 1087

原创 DPO和PPO相关

回答：当满足以下两个条件时，DPO的优化目标与PPO的奖励最大化阶段（无KL约束时）

2025-05-08 10:04:36 154

原创 PPO 算法

PPO 是 TRPO 的一种改进算法，它在实现上简化了 TRPO 中的复杂计算，并且它在实验中的性能大多数情况下会比 TRPO 更好，因此目前常被用作一种常用的基准算法。需要注意的是，TRPO 和 PPO 都属于在线策略学习算法，即使优化目标中包含重要性采样的过程，但其只是用到了上一轮策略的数据，而不是过去所有策略的数据。PPO 是 TRPO 的第一作者 John Schulman 从加州大学伯克利分校博士毕业后在 OpenAI 公司研究出来的。

2025-05-06 14:23:46 668

原创大模型优化利器：RLHF之PPO、DPO

现今，强化学习已成为大型模型的标配技术，特别是随着 OpenAI O1 的发布，该技术作为其核心方法，掌握并熟练运用强化学习已成为不可或缺的技能。本文简要概述了 RLHF 的基础知识，并初步介绍了 PPO 和 DPO，待日后有机会，将进一步深入学习 PPO 的其他变体。引用链接[1][2][3][4][5]朱小霖：DPO 是如何简化 RLHF 的:[6]infgrad：DPO: Direct Preference Optimization 论文解读及代码实践:[7][8]

2025-04-30 14:36:28 1068

原创通俗理解 RLHF，以及如何实现一个 PPO 算法

Critic model：Reward_model 的一个复制。

2025-04-30 10:55:33 1064

原创 TRL(Transformer Reinforcement Learning) PPO Trainer 学习笔记

如上所述，可以使用任何针对字符串返回标量值的函数来生成奖励（the reward can be generated using any function that returns a single value for a string），无论是简单的规则（例如字符串的长度）、度量（例如 BLEU）还是基于人类偏好的奖励模型。由于 PPOTrainer 在每个执行步骤中都需要主动奖励，因此我们需要定义一种在 PPO 算法的每个步骤中获取奖励的方法。在此示例中，我们将使用上面初始化的情绪奖励模型。

2025-04-28 11:53:47 909

原创 DPO: Direct Preference Optimization 直接偏好优化（学习笔记）

步骤2）在于优化，具体过程大概是，对于同一个question prompt，模型在两种模型：language/policy model 和 reference model下分别生成，对应chosen 和 rejected label真值标签的生成概率，因此可以获得四种概率值：policy_chosen_logps, policy_rejected_logps, reference_chosen_logps, reference_rejected_logps, 用于DPO loss计算。

2025-04-28 11:48:09 1220

原创实现GRPO（Implementing GRPO）

GRPO是一种训练技术，旨在通过捕捉特定偏好的奖励函数来优化语言模型。与其他强化学习方法（如PPO或RLHF）不同，GRPO不需要复杂的评判模型和大量计算资源，而是直接优化语言模型，并通过在生成的响应组内计算相对优势来实现目标。这实现展示了GRPO的工作原理，以及如何利用它优化语言模型以适应特定格式和任务。数学问题解决任务与XML格式的结合，清晰地体现了该技术的能力。

2025-04-21 14:46:08 1019

原创直观理解 KL 散度

举个例子，P(a) 表示第二年喜欢苹果的比例是 50%，Q(a) 表示第一年也是 50%，它们的比值是 1，说明偏好没有变化。换句话说，如果第二年有 50 个学生喜欢苹果、10 个喜欢香蕉、40 个喜欢哈密瓜，那么对苹果和哈密瓜的变化应该更受关注，因为更多人喜欢它们，香蕉对总体影响较小。我们不再直接使用 P(x)/Q(x)，而是使用 log(P(x)/Q(x))，这可以缓解前面提到的大数问题。第二年，喜欢苹果的比例仍是 50%，但喜欢香蕉的只有 10%，而喜欢哈密瓜的上升到了 40%。这是一个很好的开始。

2025-04-21 14:07:13 635 2

原创为什么要GRPO？

本文主要跟大家梳理 LLM 强化学习算法演进之路： MC→TD→Q-Learning→DQN→PG→AC→TRPO→PPO→DPO→GRPO。 Q 值：代表智能体选择某个动作后，一直到最终状态奖励总和的期望， Q 值评价动作。 V 值：代表智能体在这个状态下，一直到最终状态的奖励总和的期望，V 值评价状态。如何在不知道真实环境分布的情况下估算 V 值，已经诞生了多种方法，大体归纳为基于价值、基于策略两种：代表：MC（Monte-Car

2025-04-16 10:26:55 667

原创彻底弄懂BERT模型

在训练的初始阶段，我们可以设置一个很大的学习率，但是我们应该在后面的迭代中设置一个较小的学习率。因为在初始的迭代时，我们远没有收敛，所以设置较大的学习率带来更大的步长是可以的，但在后面的迭代中，我们已经快要收敛了，如果学习率（导致步长）较大可能会错过收敛位置（极小值）。在初始迭代期设置较大的学习率而在之后的迭代期减少学习率的做法被称为学习率 scheduling。热身步就是用于学习率 scheduling 的。假设我们的学习率是 1e-4，然后热身步为 10000 个迭代。

2025-04-14 15:28:31 866

原创精通Transformer，要讲清QKV

对于文本生成任务，Query通常是模型已经生成的词，我们的目标是通过它来“询问”上下文，找出与它最相关的部分，以便生成下一个词。在文本生成任务中，Transformer的解码器会拿前面已经生成的词作为Query，去跟编码器的输出（或解码器自己的隐藏状态，作为Key和Value）互动，一步步生成后续的词。模型把“这里”的嵌入向量当作Query（Q），把前面的词“欢迎”、“关注”、“智能体”、“AI”、“公众号”的嵌入向量当作Key（K）。这个上下文表示融合了所有词的信息，但“公众号”的贡献最大。

2025-04-14 14:47:36 872

原创从0开始大模型之模型DPO训练

具体公式推导可以参考这篇博客：https://www.cnblogs.com/lemonzhang/p/17910358.html。对话的偏好不是我们想要的答案，所以需要继续微调训练，这篇文章就介绍DPO。的代码和前面的一样，可以参考预训练的代码，如下就是初始化模型和。主要解决RLHF不稳定的问题，直接使用人类偏好数据训练模型。DPO的数据可以搜索huggingface的DPO数据集，格式的模型，如果想保存。prompt: 文本。chosen: 文本。

2025-04-10 16:10:39 776

原创 PPO & GRPO 可视化介绍

本文来自Google DeepMind研究员Jimmy关于PPO & GRPO 可视化介绍。

2025-04-08 10:35:25 829

原创 LLM大模型：deepspeed实战和原理解析

3、https://www.deepspeed.ai/ https://github.com/microsoft/DeepSpeed https://www.deepspeed.ai/getting-started/ 官网。2、显卡之间通信，涉及到参数传递的，会让显卡组成虚拟环，环内每个显卡的每个维度都依次给下一个显卡发送数据，直到每个显卡的参数都一样位置，这期间的经历称为scatter-reduce和all-gather！通行量是DDP的1.5倍，但是显存占用比DDP小了接近60倍！

2025-04-07 15:47:26 1250

原创一文看懂！视觉语言模型VLM

视觉语言模型（Visual-Language Models, VLMs）是一种融合视觉信息与语言信息的多模态人工智能模型。它旨在通过同时处理图像、视频等视觉数据以及文本、语音等语言数据，实现对复杂场景的深度理解和生成。这种模型的核心在于打破视觉与语言之间的模态壁垒，使机器能够像人类一样综合运用视觉和语言能力来完成各种任务。在人工智能的发展历程中，视觉和语言一直是两个相对独立的研究领域。计算机视觉专注于图像和视频的识别与理解，而自然语言处理则致力于文本和语音的处理与生成。

2025-04-07 14:03:34 1186

原创 THUNLP_Multimodal_Excercise

该方法首先使用正负样本对训练一个打分模型（reward model），再利用打分模型给出的得分，对大模型的回复进行优化，优化目标是提升大模型回复在打分模型评判下的得分，同时不要与原始的模型参数相差太远。这样可以增强模型的表示能力，允许不同的头关注输入序列的不同部分。本次任务中，将提供一个不完整的多模态大模型结构及微调代码，请根据要求，补全过程中的关键步骤，并在提供的数据上实现简单的微调与推理。在偏好对齐训练阶段，通过收集一系列的正负样本对，对模型的输出进行双向的监督，从而更有效的控制模型的输出。

2025-04-03 18:45:14 812

原创从 AlexNet 到 Swin Transformer：计算机视觉架构演进图谱

在计算机视觉领域，模型架构的演进宛如一场精彩绝伦的技术接力赛，从早期的 CNN 逐步过渡到如今大放异彩的 Transformer，每一次关键节点的突破都为整个领域注入了强大的动力，推动着视觉任务的性能迈向新的高度。本文将沿着时间轴，梳理这一演进路径中具有里程碑意义的模型以及 Transformer 的突破性成果，展现技术迭代的脉络。

2025-03-31 16:21:53 1073

转载 LLAVA复现！从0到1训练一个的多模态大模型（超越LLAVA 1.5）

本项目从0开始训练了一个MMMU分数超过llava-1.5的qllava模型，和llava相比差别在于LLM变成了qwen2。

2025-03-28 10:59:38 143

原创全面系统梳理多模态LLM对齐算法

2025-03-25 17:50:31 178

原创 KL（Kullback-Leibler）散度和交叉熵

信息增益是在决策树算法中用于选择最佳特征的一种评价指标。在决策树的生成过程中，选择最佳特征来进行节点的分裂是关键步骤之一，信息增益可以帮助确定最佳特征。信息增益衡量了在特征已知的情况下，将样本集合划分成不同类别的纯度提升程度。它基于信息论的概念，使用熵来度量样本集合的不确定性。具体而言，信息增益是原始集合的熵与特定特征下的条件熵之间的差异。在决策树的生成过程中，选择具有最大信息增益的特征作为当前节点的分裂标准，可以将样本划分为更加纯净的子节点。

2025-03-24 16:56:17 795

原创解析 Qwen 大模型家族和Qwen-VL系列

当每个人都在谈论 DeepSeek-R1 在模型推理方面的里程碑时，阿里巴巴的 Qwen 模型却一直被掩盖。尽管没有过多的喧嚣，Qwen 模型凭借其开源特性以及在代理功能方面的独特优势，正悄然崛起。从一开始，Qwen 模型的研发团队就致力于使其具备工具使用等代理能力，这种前瞻性思维使得 Qwen 模型在人工智能领域展现出了独特的潜力。本文将深入探讨 Qwen 模型的发展历程，以及其如何通过 Qwen-Agent 框架实现强大的推理能力，与 OpenAI 和 DeepSeek 等先进模型相媲美甚至超越。

2025-03-24 14:24:59 1295

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

图像拼接算法及实现

OpenCV2.0中机器学习函数与类

cnn学习讲义

C程序设计语言(he_C_Programming_Language)

图像拼接算法

指针和引用的区别

21天学通C#

《模式识别与智能计算的MATLAB实现》

字符识别源码

基于OpenCV的计算机视觉技术实现

空空如也