muyuu-CSDN博客

原创【强化学习漫谈】3.RLHF：从Reward Model到DPO

前面说过，不管是两个偏好回答还是 K 个偏好回答，都可以用 BT 模型来建模 Reward Loss，所以我们这里只推导这种情形下的 DPO Loss，PT 模型下的 DPO Loss 是同理的。不过相对第一点，这一点要改进比较难，因为 DPO 的重点就是把稠密的奖励信号简化成了稀疏的奖励信号，否则就又回到强化学习的路上了。我们在前面的文章里详细讨论过 PPO，虽然效果不错，但LLM中使用PPO一个最大的问题是。可以看出，不论是训练时的显存，还是计算量，DPO 相比起 PPO，都可谓是有大幅度的下降。

2025-04-15 21:15:07 841

原创【强化学习漫谈】1.RLHF：从PPO到GRPO

然而上述只考虑绝对分数的目标函数会有一个问题：由于每个人的水平不同，如果小明是个差生，一般只能考到30分左右，而其他人都能考到80分以上，如果只拿绝对分数作为考评，小明很可能就破罐子破摔了。为了奖励信号能及时反应小明每次成绩的变化，我们需要引入一个预期分数线来改善考评机制，只要每次“累计成绩”能超过预期分数线，就可以拿到好的考评结果，这样处于不同水平的学生都可以获得一个比较良性的激励。那么用什么来作为预期分数线比较合理呢？

2025-04-14 14:06:39 691

原创【Andrej Karpathy 神经网络从Zero到Hero】--2.语言模型的两种实现方式（Bigram 和神经网络）

【系列笔记】本文主要参考，演示。

2025-03-09 22:55:25 728 4

原创 LLM推理--vLLM解读

例如：1.对于同样一个prompt，给出三种不同回答的场景，这个prompt的 KV 就可以在三个数据中都使用，而不用复制三份，即虽然虚拟内存上看是有三份，但这三份在物理内存上都指向一份，实际只消耗了一份内存。2. 在 beam search 场景，top k 的序列往往有很多前置 token 是相同的，这些也可以用类似上面的方法，即虚拟内存各占各的，但相同 token 的在物理内存上指向同一份。这里释放后来任务的 KV 占用，既可以是扔掉后面再重新算，也可以是先放到CPU 内存当中，后面再直接调用。

2025-02-05 22:37:10 859

原创 DeepSpeed Zero 解读

检查点技术通过在前向传播时只存储部分关键激活值（称为“检查点”），在反向传播时重新计算丢弃的部分，以此降低内存占用，并不会引入跨设备的数据传输延迟。，输入长，batch size大，activates内存就大，各个GPU上由于输入的数据不同，其activates变量也不一样，不涉及重复存储的问题。，即无论input是什么，batch size多大，需要用到的变量都是这些，因此可以认为这些变量在各个GPU上都保留一份是纯复制，是冗余的；

2025-02-03 22:12:02 394

原创【Andrej Karpathy 神经网络从Zero到Hero】--1. 自动微分autograd实践要点

第一步首先要定义Valuedata（Value 的数值），grad（Value 的梯度），_backward（反向传播函数，初始化为 None），_prev（需要依赖于它的Value)"return outreturn outreturn outtopo = []每个算子的_backward函数需要依次按算子进行手动定义一个Value的backward函数，是从当前Value开始，先将依赖于这个Value的所有Value按依赖顺序串起来，然后再从当前Value。

2024-08-21 21:11:45 1060

原创训练 Transfomer 模型的内存消耗计算

经典图打底：LY∂W∂LY−Y2XTW−2Y−Y∂W∂Y−2Y−XTWX这里面X就需要保存下来供反向传播时使用下面具体的分析中需要用到每一层的具体运算张量，具体可以参考。

2024-08-13 16:13:03 757

原创【强化学习的数学原理】课程笔记--6（Actor-Critic方法）

目录Actor-Critic 方法QAC 算法Advantage Actor-Critic 算法Baseline invarianceOff-policy Actor-Critic重要性采样Deterministic Policy Gradient (DPG)系列笔记：【强化学习的数学原理】课程笔记–1（基本概念，贝尔曼公式）【强化学习的数学原理】课程笔记–2（贝尔曼最优公式，值迭代与策略迭代）【强化学习的数学原理】课程笔记–3（蒙特卡洛方法）【强化学习的数学原理】课程笔记–4（随机近似与随机梯度

2024-08-07 22:52:59 874

原创【强化学习的数学原理】课程笔记--5（值函数近似，策略梯度方法）

目录值函数近似一个例子TD 算法的值函数近似形式Sarsa, Q-learning 的值函数近似形式Deep Q-learningexperience replay策略梯度方法（Policy Gradient）Policy Gradient 的目标函数目标函数 1目标函数 2两种目标函数的同一性Policy Gradient 目标函数的梯度Policy Gradient 目标函数梯度的统一形式discounted case 情形下的目标函数梯度undiscounted case 情形下的目标函数梯度蒙特卡洛

2024-07-28 22:51:45 467

原创【强化学习的数学原理】课程笔记--4（随机近似与随机梯度下降，时序差分方法）

目录随机近似与随机梯度下降Mean estimationRobbins-Monro 算法用 Robbins-Monro 算法解释 Mean estimation用 Robbins-Monro 算法解释 Batch Gradient descent用 SGD 解释 Mean estimationSGD 的一个有趣的性质时序差分方法Sarsa 算法一个例子Expected Sarsa 算法n-step Sarsa 算法Q-learning 算法off-policy 和 on-policy总结随机近似与随机梯度

2024-07-20 17:55:57 1136

原创【强化学习的数学原理】课程笔记--3（蒙特卡洛方法）

ϵ。

2024-07-03 17:03:13 550

原创【强化学习的数学原理】课程笔记--2（贝尔曼最优公式，值迭代与策略迭代）

目录贝尔曼最优公式最优 Policy求解贝尔曼最优公式求解最大 State Value v∗v^*v∗根据 v∗v^*v∗ 求解贪婪形式的最佳 Policy π∗\pi^*π∗一些证明过程一些影响 π∗\pi^*π∗ 的因素如何让 π∗\pi^*π∗ 不 “绕弯路”γ\gammaγ 的影响reward 的影响值迭代与策略迭代值迭代策略迭代值迭代和策略迭代的具体差别一个小例子贝尔曼最优公式作用：用于找到最优的 Policy最优 Policy如果存在一个 Policy π∗\pi^*π∗，st 对于

2024-06-30 18:20:31 639

原创【强化学习的数学原理】课程笔记--1（基本概念，贝尔曼公式）

当从状态 s 出发时，discounted return的期望值（从一个state出发，可能有多条路径到达terminal/或称多条trajectory，对所有可能的trajectory的discounted return求期望）State Value 是指从一个 state 出发的 average return，而 Action Value 是指从一个 state 出发，，eg：上图中第一个return是2，第二个return是1，所以第一个policy更好（没有进到forbidden block）

2024-06-24 17:37:08 1118

原创 ChatGPT原理解读

chagpt 算法介绍

2023-03-02 16:18:21 7025

原创神经网络与深度学习6---网络优化与正则化

网络优化与正则化参数初始化为什么不能将参数初始化为全零本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中第7章：网络优化与正则化的读书笔记，主要内容是一些本人觉得比较值得记录的内容，中间也会包括一些拓展和思考。参数初始化为什么不能将参数初始化为全零以一个三层网络为例：其中z4=w14∗x1+w24∗x2+w34∗x3+b4z5=w15∗x1+w25∗x2+w35∗x3+b5z6=w16∗x1+w26∗x2+w36∗x3+b6z_4=w_{14}∗x_1+w_{24}∗x_2+w_{34}∗

2022-09-02 17:53:03 643

原创 JAVA 基础

目录类，抽象类，接口抽象类和普通类的区别接口和抽象类的区别static，final关键字static类，抽象类，接口抽象类抽象类：含有抽象方法的类叫作抽象类抽象方法：必须用"abstract"关键字进行修饰。抽象方法是一种特殊的方法，它只有声明，而没有具体的实现。[public] abstract class ClassName { //抽象类 abstract void fun();//抽象方法}因为抽象类中含有无具体实现的方法，所以不能用抽象类创建对象。抽象类就是为了继承

2022-07-11 15:39:37 594

转载非root用户安装cuda与cudnn

非root用户安装cuda与cudnnubuntu非root用户安装CUDA以及cuDNN

2022-04-13 23:11:38 621

原创为什么使用softmax作为多分类的概率函数

首先我们知道神经网络输出层的结果一般无法直接作为概率值，因为它既不是全非负值，加和也不为零，这是不满足概率的定义的。因此首先我们需要对其做一个转化使得：向量值全为非负值向量值加和等于1转化是递增函数而上面几个条件就排除了 xi∑ixi\frac{x_i}{\sum_{i} x_i}∑ixixi，xi2∑ixi2\frac{x_i^2}{\sum_{i} x_i^2}∑ixi2xi2，∣xi∣∑i∣xi∣\frac{|x_i|}{\sum_{i} |x_i|}∑i∣xi∣∣xi

2022-04-12 15:50:59 2743 1

原创 Word2vec结构详解及原理推导

目录统计语言模型神经概率语言模型Word2vecHierarchical SoftmaxHuffman 树CBOW 和 Skip-gramNegative SamplingCBOW 和 Skip-gram由于 Word2Vec 本质其实是一个语言模型，词向量只是这个语言模型的副产物，因此我们首先简单看一下语言模型：统计语言模型语言模型其实就是计算一个句子出现的概率，例如：我明天早上要去上学明天去上学我要早上我名天枣上要去尚学那么一个好的语言模型应该会让句子1的概率大于句子2和句子3。具体来

2022-04-05 20:52:46 1691

原创神经网络与深度学习7---注意力机制与seq2seq模型

目录注意力评分函数基于循环神经网络的seq2seq模型本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中第8章：注意力机制与外部记忆的读书笔记，主要内容是一些本人觉得比较值得记录的内容，中间也会包括一些拓展和思考。注意力评分函数以下为注意力机制的流程图，查询 q\boldsymbol qq 通过注意力评分函数 aaa 与键 k\boldsymbol kk 作用，并通过softmax得到对应 k\boldsymbol kk 的概率分布值，最后这些概率分布值与值 v\boldsymbol vv 做加权

2022-03-29 10:59:07 1569

原创 Transfomer矩阵维度分析及MultiHead详解

目录参数量各结构解析训练阶段Encoder Multihead Attention解读Transformer就离不开下面这张图：不同于之前的基于rnn的seq2seq模型，Transfomer完全摒弃了循环神经网络的结构：encoder层： {多头自注意力 + 前馈网络} ×n\times n×ndecoder层： {掩蔽多头自注意力 + encoder-decoder多头自注意力 + 前馈网络} ×n\times n×n下面我们介绍Transformer模型中的参数变化情况：参数量对于

2022-03-21 17:19:42 4336 2

原创 NLP常见评价指标

目录标困惑度（Perplexity）BLEU精确率和召回率困惑度（Perplexity）困惑度是语言模型的一个衡量标准。因为单纯序列的似然概率是一个难以理解、难以比较的数字。毕竟，较短的序列比较长的序列更有可能出现，因此评估模型产生长篇巨著《战争与和平》的可能性会比产生中篇小说《小王子》可能性要小得多。一个好的语言模型应该能让我们准确地预测下一个词元。所以我们可以通过一个序列中所有的 n 个词元的交叉熵损失的平均值来衡量：1n−∑t=1nlog P(xt∣x1,⋯ ,xt−1)

2022-03-05 23:28:10 2376

原创 keras.losses中 reduction=‘none‘的用法

以循环神经网络为例，pred的形状是 (batch_size, num_steps, vocab_size)，label的形状是 (batch_size, num_steps）。计算预测值与真实值的损失：tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True, reduction='none')(label, pred)reduction key的可选值‘none’：每个step位置的损失都单独保留。返回值的形状为：(batch_s

2022-02-28 21:49:36 2303

原创神经网络与深度学习5---循环神经网络

循环神经网络循环神经网络参数量梯度不稳定性（长程依赖）本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中第6章：循环神经网络的读书笔记，主要内容是一些本人觉得比较值得记录的内容，中间也会包括一些拓展和思考。循环神经网络传统的前馈神经网络在处理带有时序的数据（例如文本，语音等）时往往能力有限：1. 由于其全连接的结构使得无法学到数据的时序信息，2. 时序数据的输入长度通常是不定的，而前馈神经网络的输入是定长的。针对以上这些特性，研究员们推出了一类称为循环神经网络的深度模型结构。其主要模块结构如下

2022-02-27 21:03:38 695

原创 keras.losses中from_logits的作用

目录tf.keras.lossesfrom_logits=True 的作用tf.keras.lossesfrom_logits=True 的作用以 SparseCategoricalCrossentropy(from_logits=True) 为例，读keras源码，发现 losses.py 中定义的 SparseCategoricalCrossentropy 实际上调用的是 backend.py 中的 sparse_categorical_crossentropy 函数，代码当中有如下一段：eli

2022-02-10 22:36:13 3512

原创 softmax溢出问题

目录上溢及下溢softmax交叉熵损失softmax函数是深度学习常用的输出函数，它的表达式如下：yj^=exj∑i=1nexi\hat{y_j} = \frac{e^{x_j}}{\sum_{i=1}^{n} e^{x_i}}yj^=∑i=1nexiexj上溢及下溢但是如果 xjx_jxj 是一个很大的数，那么 exje^{x_j}exj 可能会大于数据类型容许的最大数字，造成上溢，这将使分母或分子变为 infinfinf，最后得到的是0、infinfinf 或 nannanna

2022-01-31 00:47:14 3726

原创广义线性模型推导线性回归模型，Logistic模型，多项Logistic模型

目录广义线性模型推导线性回归模型广义线性模型推导Logistic模型广义线性模型推导多项Logistic模型广义线性模型是机器学习中一种的模型框架，我们常见的线性模型，Logistic模型，softmax模型都属于广义线性模型。下面我们就从广义线性模型角度推导这三种模型。首先介绍一下广义线性模型的定义，满足以下三个条件的模型属于广义线性模型：\quad因变量 yyy 服从指数族分布: P(y;η)=b(y)exp(ηTT(y)−a(η))P(y;\eta) = b(y) exp(\eta^T

2021-12-28 17:16:29 1191

原创神经网络与深度学习1--机器学习概述

目录机器学习中的损失函数平方损失函数交叉熵损失函数Hinge 损失函数正则化关于L2正则化的两点思考本文是邱锡鹏教授撰写的《神经网络与深度学习》一书中第一部分：机器学习基础的读书笔记，由于该部分比较基础，只记录一些本人觉得比较值得记录的内容，中间也会包括一些拓展和思考。机器学习中的损失函数平方损失函数适用问题：预测的 label y 为实值时，通常是回归问题定义：L(y,f(x;θ))=12(y−f(x;θ))2L(y,f(x;\theta)) = \frac{1}{2} (y - f(x

2021-12-27 22:26:37 413

原创最大熵原则与最大熵模型

最大熵准则熵最大熵准则首先看熵的定义熵熵是信息论中的概念，首先需要定义一个事件X=xX=xX=x的信息量，要求满足以下两个条件：越不可能发生的事情，信息越大几个独立事件同时发生的信息量=每一个事件的信息量之和个满足以上两个条件的且最为简单的函数就是对数函数了，s.t. I(x)=−logP(x)I(x) = -logP(x)I(x)=−logP(x)Proof： P(x)P(x)P(x)越大，I(x)=−logP(x)I(x) = -logP(x)I(x)=−logP(x)越小I(x1,

2021-12-26 22:27:31 2986

原创利用conda安装tensorflow2.0 和 pytorch（带镜像）

进入Anaconda Prompt基于 python 3.6 创建虚拟环境：conda create --name tensorflow python=3.6激活创建的环境：activate tensorflow安装 tensorflow 2.0 ：pip install tensorflow==2.0.0 -i https://pypi.tuna.tsinghua.edu.cn/simple测试是否安装成功：进入python： python导入tensorflow：import tenso.

2021-12-13 16:34:50 2080

原创基于双数组trie树的AC自动机(含JAVA代码讲解)

目录基于双数组trie树的AC自动机构建双数组trie树AC自动机构建trie树构建双数组构建fail和output双数组trie树AC自动机的查询基于双数组trie树的AC自动机前面我们已经介绍过 AC自动机，但在实际使用当中如果需要构建的词典树特别大，原始版本的AC自动机在做查询时耗时会比较多，而基于双数组trie树的AC自动机恰好能够弥补这一缺陷。下面我们将基于hankcs实现的 AhoCorasickDoubleArrayTrie 代码来讲解双数组trie树的AC自动机的构建以及查询过程。

2021-12-06 23:53:07 1329

原创双数组trie树详解

目录双数组trie树的构建构建base array构建check array双数组trie树的查询双数组trie树的构建NLP中trie树常用于做快速查询，但普通的trie树由于要保存大量的节点信息，当储存的词量非常大时，不仅所占空间巨大，而且查询的速度也不够快。而双数组trie树就可以比较好的解决这两个问题。之所以叫双数组trie树，是因为它只用base[]和check[]两个数组就将整个trie的信息储存了起来，这两个数组的构建规则是：base[i]+code(x)=jcheck[j]=i\be

2021-12-05 22:47:47 3753 8

空空如也

空空如也