WhereIsMyChair-CSDN博客

原创 VERL的损失函数计算方式

模式侧重点适用场景token-mean每个 Token 权重平等预训练（Pre-training）、指令微调（SFT）每个序列权重平等序列级别任务，不希望长序列主导梯度极度平滑序列长度差异强化学习、或者对 loss 稳定性要求极高时固定缩放，数值稳定分布式并行优化，防止动态 mask 导致梯度跳变。

2026-01-14 20:12:08 640

像一个层层筛选的漏斗。当模型准备生成下一个商品的第一个 Semantic Token 时，如果发现这个 Token 代表的类目（如“数码”）在已生成的序列中占比过高，就人为降低该 Token 的概率分数（Logits）。没关系，只要把它的文案输入 RQ-VAE，生成一个 Semantic ID，模型就能根据这个 ID 的语义（前缀相似性）把它分发给喜欢同类商品的客群。它通过在大规模文档-ID 对上进行“死记硬背”（索引）和在查询-ID 对上进行“理解泛化”（检索），实现了完全去索引化的端到端搜索。

2026-01-12 00:06:18 697

原创 DPO 核心损失函数β调大可以控制不偏离ref模型太远

模型会为了拿到高分而不择手段，哪怕生成的句子不符合正常人类语言的概率分布（即 KL 散度爆炸）。概率的变化在 Sigmoid 函数中被压缩得越厉害，导致模型必须产生更大的分布偏移才能降低 Loss。是“置信度阈值”：它定义了你对“ Chosen 必须比 Rejected 概率高多少”的期望。这会导致概率分布的“尖峰”化，即模型变得非常确信某一个答案，丧失了生成的多样性。决定了“偏离参考模型的程度”转化为“奖励分值”的权重。是冻结的参考模型（通常是 SFT 后的模型）。

2026-01-01 14:53:48 921

原创召回排序常用损失函数

要求正样本与锚点（Anchor）的距离比负样本近，且至少有一个间隔（Margin）。排序根据输入数据的组织形式（Point, Pair, List），公式差异显著。直观理解：如果交换两个文档对整体排名指标影响巨大，则给予该样本对更大的梯度权重。ListNet 将一个列表的得分转换为概率分布，计算预测分布与真实分布的距离。针对召回和排序中的常用算法，我为您整理了它们的核心数学公式及关键变量解释。的位置后，整个列表 NDCG 指标的变化绝对值。：真实标签（点击为1，未点击为0）。

2025-12-29 19:15:04 375

原创 BatchNorm、LayerNorm和RMSNorm的区别

它们的核心思想是对神经网络的激活值进行标准化，但具体实现和应用场景有所不同。的计算逻辑与2D类似，但需要明确归一化的维度。下面通过一个具体的3D张量示例说明它们的计算过程。：与LayerNorm相同（沿最后两维），但仅用RMS缩放，不中心化。：需要高效归一化的模型（如大语言模型LLaMA）。：每个样本独立归一化，序列和特征维度被一起处理。在3D数据（如CNN中的特征图或时序数据）中，：同一特征通道在所有样本和位置上被归一化。：保留原始值的相对大小，仅通过RMS缩放。进行归一化（沿特征维度，而非批次维度）。

2025-12-28 01:50:39 999

原创 GRPO重要性采样基于旧策略采样结果而不是新策略采样结果这是为什么？

摘要：本文探讨了在GRPO/PPO算法中将采样策略从旧策略改为新策略的影响。传统方法通过旧策略采样并计算新策略概率比来保证稳定性，而反向操作会导致重要性权重爆炸、训练不稳定和样本效率下降。虽然可通过混合策略、权重截断等方法改进，但直接修改会违背算法设计初衷，建议采用动态调整采样比例或结合经验回放等替代方案。这种改动需要谨慎验证，否则可能破坏训练效果。（149字）

2025-12-21 12:23:56 634

原创定性分析DPO损失函数中策略变化和损失函数值变化之间的关系，以及损失函数的优化目标

（即策略参数的更新）来最小化损失函数，从而实现对人类偏好的对齐。以下从定性角度分析策略变化与损失函数值变化的关系，并解释其优化目标。

2025-11-27 17:08:35 331

原创强化学习中的Value model和actor-critic模型中的哪个模块类似？

Value Model 等价于 Actor-Critic 中的 Critic 模块，二者均通过价值估计指导策略优化。区别在于Value Model可独立存在，而Critic是Actor-Critic框架中与策略模型（Actor）交互的组成部分。Vs( V(s) )Vs))是策略的“状态评分器”，用于评估策略。Qsa( Q(s,a) )Qsa))是策略的“动作选择器”，用于优化策略。在Actor-Critic中，Critic通常学习Vs( V(s) )Vs))

2025-11-26 23:47:38 857

原创强化学习中各个重要概念串讲

是核心符号，它们之间的关系构成了RL的理论框架。在强化学习（Reinforcement Learning, RL）中，这些概念构成了强化学习从。（策略优化）的完整框架。

2025-11-26 23:43:23 786

原创即时奖励加未来奖励的折扣描述的是什么

其核心思想是：智能体（Agent）在某个时间步获得的即时奖励（Immediate Reward），加上未来所有奖励的折扣总和，用于衡量当前状态或动作的长期价值。平衡即时与未来收益。这一概念是Q-Learning、策略梯度等算法的基础，也是理解智能体决策过程的关键。您描述的概念是强化学习（Reinforcement Learning, RL）中的。，它是评估动作或策略长期价值的核心指标，通过折扣因子。“即时奖励加未来奖励的折扣”描述的是强化学习中的。最大化（即尽快到达终点以减少负奖励）。

2025-11-26 23:39:30 740

原创举例说明DPO损失函数如何计算

举例说明DPO损失函数如何计算

2025-11-26 23:35:58 954

原创机器学习的十大经典算法

-C4.5(分类)C4.5算法详解（非常仔细）_张张的专栏-CSDN博客_c4.5算法信息熵：某件事情发生的不确定性度，-plog2(p)，信息熵越大，不确定性越大类别信息熵：类别信息熵表示的是所有样本中各种类别出现的不确定性之和，公式：label_info =-p1log2(p1)-p2log2(p2)-p3log2(p3)，(p1+p2+p3=1) 属性信息熵：每个属性的信息熵相当于一种条件熵。他表示的是在某种属性的条件下，各种类别出现的不确定性之和。属性的信息熵越大.

2021-09-29 18:04:31 422

转载 LSTM模型后增加Dense（全连接）层的目的是什么？

https://www.zhihu.com/question/324942751/answer/692299327

2021-06-01 22:53:12 5938

转载使用LSTM进行文本情感分析

NLP入门（十）使用LSTM进行文本情感分析 https://www.jianshu.com/p/b5f03ece4e50

2021-05-31 22:43:33 381

原创 LeetCode 494 ：数学公式转化为0-1背包问题

解题思路这个题所有正数之和居然是固定的数所有负数之和也居然是固定的数； a: 所有取正号的数之和和， b:所有取负号的数之，和；a+b = sum_nums【数组元素之和】， a-b = 目标值，代码class Solution {public: int findTargetSumWays(vector<int>& nums, int S) { int n = nums.size(), sum_nums = 0; ...

2021-03-30 17:28:14 239

原创 leetcode 10. 正则表达式匹配

解题思路dp[0][0] = true; //主串前0个字符（空串）和模式串前0个字符（空串）能够匹配for(int j = 2; j <= n; j++) { if(p[j - 1] == '*' && j >= 2) dp[0][j] = dp[0][j - 2]; //把主串当做空串的时候和模式串中带有*的比较，主要是由于*可以吃掉一部分主串所以也有可能匹配上比如空串和 "a*b*c*"是匹配的}(一)当前字符匹...

2021-03-26 19:14:11 248

原创 https://leetcode-cn.com/problems/single-number-ii/

解题思路https://leetcode-cn.com/problems/single-number-ii/solution/zi-dong-ji-wei-yun-suan-zui-xiang-xi-de-tui-dao-gu/![image.png](https://pic.leetcode-cn.com/1615813605-QeYEgY-image.png)![image.png](https://pic.leetcode-cn.com/1615815085-AiBGdq-image.png

2021-03-15 21:33:57 913

原创 0-1背包问题

//背包问题：https://www.acwing.com/problem/content/2/ void package(){ int n, v, max_value = 0, totalVol = 0, tempVal = 0; cin>>n>>v; int vol[n], val[n]; int dp[n+1][v+1]; memset(dp, 0, sizeof(dp)); for(int i ...

2021-03-14 11:31:27 127

原创 132. 分割回文串 II

哇我突然明白了一点，关于动态规划，需要看他的前后依赖关系来确定他是从上往下还是从前往后或者倒过来。例如说： rs[i][j] = (i+1==j||rs[i+1][j-1]==1)&&s[i]==s[j]?1:rs[i][j-1] + 1;//显然rs[i][j]依赖rs[i+1][j-1];也就是依赖左下角的值，所以每行从下往上计算，每列从前往后计算显然rs[i][j]依赖rs[i+1][j-1]，也就是依赖左下角的值，所以每行从下往上计算，每列从前往...

2021-03-13 14:17:41 138

原创 2021-03-12

感觉还是不太清晰：动态规划https://leetcode-cn.com/problems/best-time-to-buy-and-sell-stock-iii/解题思路对于每个价格，有多重选择： //1.如果还没有买，可以选择买入或者观望；这种情况不能卖出 //2.如果已经买了，可以选择卖出或者观望； //3.如果已经卖了，可以选择再次买入或者观望； //4.如果再次买了，可以选择卖出或者观望；代码class...

2021-03-12 19:49:36 128

原创 2021-03-12

120. 三角形最小路径和难度中等709给定一个三角形triangle，找出自顶向下的最小路径和。每一步只能移动到下一行中相邻的结点上。相邻的结点在这里指的是下标与上一层结点下标相同或者等于上一层结点下标 + 1的两个结点。也就是说，如果正位于当前行的下标i，那么下一步可以移动到下一行的下标i或i + 1。示例 1：输入：triangle = [[2],[3,4],[6,5,7],[4,1,8,3]]输出：11解释：如下面简图所示： 2...

2021-03-12 10:20:33 141

原创 2021-03-10

牛客网：代理服务器切换次数//原题链接：https://www.nowcoder.com/questionTerminal/1284469ee94a4762848816a42281a9e0#include <cstring>#include <iostream>#include <set>using namespace std;//原题链接：https://www.nowcoder.com/questionTerminal/1284469ee94a.

2021-03-10 20:28:20 158

原创 dfs例题 130. 被围绕的区域

dfs例题https://leetcode-cn.com/problems/surrounded-regions/:130. 被围绕的区域给你一个 m x n 的矩阵 board ，由若干字符 'X' 和 'O' ，找到所有被 'X' 围绕的区域，并将这些区域里所有的 'O' 用 'X' 填充。示例 1：输入：board = [["X","X","X","X"],["X","O","O","X"],["X","X","O","X"],["X","O","X","X"]]输出：[["X

2021-03-10 11:43:10 435

原创并查集两个算法

没有什么是连续写几遍搞不定的算法模板1.我终于自己写出来了并查集，胜利胜利啊，开心解题思路如果两个点联通，就是1：isConnected.at(i).at(j)==1 成立，就合并，其余的就是记住并查集模板，比较容易出错的地方在于： int findFather(int x){ if(father[x] == x) return x; father[x] = findFather(father[x]);//这个地方是要寻找x的父节点的父节点，而不.

2021-03-10 00:09:32 218

转载并查集模板

带路径压缩的并查集模板作者：cornerCao链接：https://www.acwing.com/blog/content/205/来源：AcWing著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。vector<int> father;void init(int x){//防止father是空的数组 x是元素个数 for(int i = 0; i < x; i++){ father.push_back(i); }}

2021-03-09 22:02:31 145

原创二叉搜索树生成

原题95. 不同的二叉搜索树 II难度中等800给定一个整数n，生成所有由 1 ...n为节点所组成的二叉搜索树。示例：输入：3输出：[ [1,null,3,2], [3,2,null,1], [3,1,null,null,2], [2,1,3], [1,null,2,null,3]]解释：以上的输出对应以下 5 种不同结构的二叉搜索树： 1 3 3 2 1 \ ...

2021-03-08 16:45:01 652

原创基于用户的协同过滤推荐算法

collaborative-filtering-recommendationcollaborative filtering recommendation description and implementaion基于用户的协同过滤推荐算法基本思路：选取某个用户A的具有相似品味的邻居用户集合, 从邻居用户集合的历史评分以及用户A的历史评分综合考虑预测用户A给其未评价过的项目的评分结果, 选取预测分大于指标的项目推荐给用户A.基本问题：1.选择的查找相似用户用到的算法： k近邻算法、

2021-03-07 23:48:28 997

原创基于用户的协同过滤推荐算法

------基于用户的协同过滤推荐算法-------基本思路：选取某个用户A的具有相似品味的邻居用户集合, 从邻居用户集合的历史评分以及用户A的历史评分综合考虑预测用户A给其未评价过的项目的评分结果, 选取预测分大于指标的项目推荐给用户A.1.选择的查找相似用户用到的算法： k近邻算法、皮尔森相关系数法（1）皮尔逊相关系数是余弦相似度在维度值缺失情况下的一种改进： https://www.cnblogs.com/charlesblc/p/8...

2021-03-07 12:47:31 505

原创学习协同过滤推荐算法和svd

推荐算法：讲得超级好！！！https://www.bilibili.com/video/BV12t411a7dV?t=6svd讲解：https://www.bilibili.com/video/BV1mx411E74T?p=6&spm_id_from=pageDriver推荐算法：svd:

2021-03-05 22:52:50 236

原创区间贪心算法

题目链接http://codeup.hustoj.com/problem.php?cid=100000584&pid=0问题 A: 看电视时间限制 :1.000sec内存限制 :32 MB题目描述暑假到了，小明终于可以开心的看电视了。但是小明喜欢的节目太多了，他希望尽量多的看到完整的节目。现在他把他喜欢的电视节目的转播时间表给你，你能帮他合理安排吗？输入输入包含多组测试数据。每组输入的第一行是一个整数n（n<=100），表示小明喜欢的节目的总数...

2021-03-05 11:24:43 133

原创回溯解决重复元素子集问题 LeetCode 90. 子集 II

90. 子集 II给定一个可能包含重复元素的整数数组nums，返回该数组所有可能的子集（幂集）。说明：解集不能包含重复的子集。示例:输入: [1,2,2]输出:[ [2], [1], [1,2,2], [2,2], [1,2], []]代码运行结果：#include <stdio.h>#include <cstring>#include <iostream>#include <queue&g...

2021-03-02 18:36:15 235

原创 pat1004 counting leaves

1004 Counting Leaves (30 分)A family hierarchy is usually presented by a pedigree tree. Your job is to count those family members who have no child.Input Specification:Each input file contains one test case. Each case starts with a line containing0&..

2021-03-01 18:13:02 154

原创拒绝懒惰18

位运算还是要学习一下//位运算实例void methodFroBinary(){ int a = 1, b = 2, c = 4, d = 7; cout<<(c>>1)<<endl;//输出2 向右移动1位 cout<<(a&b)<<endl;//输出0 位与运算 cout<<(a|b)<<endl;//输出3 位或运算 cout<&lt.

2021-02-25 16:13:23 122

原创拒绝懒惰day17

写LeetCode昨天不会的两个题，用到单调栈的思路。1.柱状图中最大矩形：class Solution {public: int largestRectangleArea(vector<int>& heights) { int rs = 0, j = heights.size(); int high[j+2]; high[0] = 0; high[j+1]=0; for(int index = 1; index < j

2021-02-24 18:25:09 154

原创拒绝懒惰day16

终于写出来昨天的LeetCode题了：看了题解distance实在是太妙了！C++滑动窗口解题思路此处撰写解题思路代码class Solution { public static String minWindow(String s, String t) { int minL = 0, minR = s.length()+1,l = 0, r = 0, slen = s.length(), tlen = t.length(), distance=0;

2021-02-22 14:44:53 150

原创 day15

写复试上机题2020，E不会

2021-02-22 14:40:35 106

原创拒绝懒惰day15

80. 删除排序数组中的重复项 IIclass Solution {public: int removeDuplicates(vector<int>& nums) { int index = 0; for(int i : nums){ if(index<2||i>nums[index-2]){ nums[index++] = i; }

2021-02-20 23:56:43 143

原创拒绝懒惰day14

学习布隆过滤器相关原理：主要是基于hashmap和位图表示某个字符串是否存在于位图中，其判断不存在的，一定不存在，但判断存在的可能不存在，所以有误判率，而且误判率不可能为0；写回溯的题，比较简单。...

2021-02-20 09:07:13 118

原创 day13

上午写了算法？写了荷兰旗问题，两种思路，推荐第一种，双指针：标记最小值的最右端，以及最大值的最左端，然后再从左边往右边扫描。遇到小于1的，移动指针low++，当前值nums[i]与最小值的最右端nums[low]交换，当前指针i指向low+1;遇到大于1的，移动指针high--，当前值nums[i]与最大值的最左端nums[high]交换，当前指针i指向high-1;否则，i++;一直循环直到i==high;class Solution {public: void

2021-02-18 23:43:22 143

原创拒绝懒惰day13

写了，或者抄袭了一个算法，看了题解才有的思路，具体是关于动态规划的算法，求将原单词还原为另一个单词，所需要花费最小的代价；看了数学之类，写的很精彩很好；双缝干涉实验，我开始相信时间也许是可逆的了。...

2021-02-17 23:29:08 122

空空如也

空空如也