LightYoungLee-CSDN博客

原创大模型（二）指令微调

因其高效性已成为主流选择（如 Alpaca、ChatGLM 的微调）。如果是学术研究或对性能极致追求，可尝试全参数微调。在大模型中进行**指令微调（Instruction Fine-tuning）**时，取决于具体的微调策略和任务需求。

2025-04-23 19:58:54 324

GAE通过多步TD误差的加权平均，在偏差与方差之间取得平衡，成为策略梯度算法的核心组件。其设计兼顾理论严谨性与工程实用性，是深度强化学习（如PPO、A3C）高效训练的关键技术之一。理解GAE的原理有助于优化策略更新、加速收敛，并设计更鲁棒的强化学习系统。广义优势估计（Generalized Advantage Estimation, GAE）是强化学习中用于优化策略梯度方法的一种关键技术，其核心思想是。GAE替代原始优势函数，提供更稳定的梯度估计。GAE将不同步数的优势估计通过。为批量数据的均值和标准差。

2025-03-30 21:54:37 878

原创推荐系统（十九）推荐系统中的专业名词

tgi全称为target group index，即用户画像中的标签，比如用户是否有车，是否有房。参考用户画像TGI

2021-12-26 10:43:48 512

原创推荐系统（十八）推荐系统中的MMOE

mmoe

2021-12-12 18:31:26 2843

原创推荐系统（十七）推荐系统中的样本

推荐系统中构造样本方式

2021-12-05 22:53:14 1337

原创推荐系统（十六）推荐系统中的attention机制

attention

2021-12-01 17:37:34 8895

原创 DL基本知识（七）FTRL优化器

随笔:寻优过程是随机选择一个样本进行梯度更新，很多情况下L1正则化也不会导致选择的最优值落在"角"上，因而稀疏性也不是这么明显。

2021-11-27 20:59:03 2512

原创每周一文（十五）谷歌MMOE模型

核心思想多目标推荐领域中落地较好的模型，利用不同的expert对多目标进行打分。模型结构传统多任务模型(a)通过shared bottom的方式先inference出高维emb，之后将该高维emb输入到不同的塔完成不同的任务。上述模型进一步进化得到模型(b)，该模型包含N个expert，每个expert会输出各自的高维emb，之后通过一个gate来决定输出到不同的塔的不同高维emb的组合。再进一步进化后得到模型©，即通过多个gate来决定多个高维emb的组合，这也是MMOE的主要思想。代码实现代

2021-07-22 18:00:52 850

原创 ML基本知识（十六）损失函数

推荐系统相关pairwise hinge loss其衡量的是pairwise场景下正负样本的差异，公式如下所示，其中marginmarginmargin代表的是预设的阈值，uuu代表输入query，d+d+d+代表的是正样本，d−d-d−代表的是负样本，<><><>代表的是两个向量之间的相似度，该公式代表的含义是只有当输入query与正样本足够相似时，loss才会降为0，否则与正样本越不相似或者与负样本越相似，则loss都会变得很大。loss=max(0,margi

2021-06-15 09:05:46 2721

原创推荐系统（十四）重排算法

核心思想当精排吐出的推荐结果和用户的历史行为很类似时，会出现多样性指标不好的情况，因而需要添加额外的手段

2021-06-06 21:17:36 1852

原创工程（一）Java基本知识点

接口

2021-05-26 16:38:15 127

原创每周一文（十四）谷歌YouTube-DNN推荐模型

核心思想文章介绍YouTube召回和排序模型，整体思想中规中矩，为推荐系统入门必读的模型。本文会大致阐述YouTube-DNN中的召回和排序模型。模型结构召回模型整体流程如下所示：特征召回模型用到的特征比较简单，总共分为四类：点击视频历史、搜索过的关键词、设备的地理位置信息以及用户的本质属性信息。这里值得一提的是，在构建用户点击视频历史时，不会将未来的点击视频加入到当前点击视频历史中，示意图如下所示，论文中提到(b)图的效果要比(a)图的效果好，因为不存在特征穿越的情况。样本召回模型的样

2021-05-26 10:44:24 752

原创 NLP（五）transformer模型

核心思想transformer模型的基本思想来源于seq2seq模型和attention机制，建议大家先了解下这两方面的基本知识，之后会发现transformer的原理比较简单。其整体的示意图如下所示，下文会对该模型进行详细讲述。模型结构知乎大大已经把transformer的结构讲的很清楚了，这里我只是想阐述一下我个人的几点理解。模型整体依然是encoder-decoder结构，只不过encoder和decoder内部用到的模型和seq2seq不同，如下阐述下encoder和decoder的模型结

2021-05-25 16:17:18 405

原创 NLP（四）seq2seq模型

核心思想encoder-decoder机制，通过输入一系列的变长的单词序列(X1,X2,...,XNX_1, X_2, ..., X_NX1,X2,...,XN)，先通过运算得到语义编码(CCC)，再通过运算将语义编码生成另一个空间中的一系列单词(Y1,Y2,...,YMY_1, Y_2, ..., Y_MY1,Y2,...,YM)，示例图如下所示：模型结构模型结构主要由两部分组成，encoder和decoder，如下会对两者进行详细介绍。encoderencoder并不局限于一种模

2021-05-25 15:52:09 325

原创 DL基本知识（六）循环神经网络

RNN与CNN不同的点在于其将时间维度引入模型中，整体示意图如下所示。可以看出下图每一个cell都比较简单，只有一个tanh操作，ht−1h_{t-1}ht−1和hth_tht之间的转移关系如下所示：ht=tanh(Wh⋅[ht−1,xt]+bh)h_t =tanh(W_h\cdot [h_{t-1}, x_t] + b_h)ht=tanh(Wh⋅[ht−1,xt]+bh)从上述公式可以看出，RNN本时刻的隐藏层信息只来源于当前输入和上一时刻的隐藏层信息，没有记忆功能，因而无法处理长期依

2021-05-24 16:09:26 390 5

原创 NLP（三）attention机制

核心思想把一个query翻译成source的组合结果，组合过程中会用到的系数为key，示意图如下所示：下图为上图的细节展开，可以看出query通过一系列key和变换函数F后得到一系列的score(s)，经过softmax归一化之后得到一系列的系数a，之后再将这些系数一一与value相乘并相加得到最终的attention value。优缺点优点一步到位的全局联系捕捉并行计算减少模型训练时间模型复杂度小，参数少缺点不能捕捉语序顺序的相关信息，因为其本身是一个精致的词袋模型。self-

2021-05-17 17:02:52 900

原创 ML基本知识（十五）Kmeans

核心思想Kmeans是一个无监督的问题，想要达到的目标是把数据聚成k类。在说算法之前必须说一下Kmeans的理论基础，也就是能够进行Kmeans操作的前提是每一个簇中的数据都服从高斯分布，也就是说数据是服从混合高斯模型的，而且假设每一个高斯模型的方差都是相同的，这样才能够保证结果是正确的，即对于每一个点的概率如下，xi∼N(μi,σ)x_i \sim N(\mu_i, \sigma)xi∼N(μi,σ)而对于所有的数据，它的似然概率为：∏j=1K∏i=1Nj(12πσe−(xji−μj)22σ2

2021-05-17 16:32:54 477

原创 DL基本知识（五）神经网络经典模型

resnet模型层数加深后效果会有退化，这不是过拟合的原因(训练和测试的误差都很高)，也不是梯度消失的问题(有BN)，因而这些极深的模型学偏了，忘记了初心，即学习"什么都不做"在网络加深的过程中会变得越来越困难。resnet通过恒等映射来解决上述问题，其中关键点在于映射的shortcut，示意图如下所示：可以看出，模型拟合的输入+残差，而不是简单的一个输出，这样的一个好处是反向传播过程中梯度不会很快的衰减下去，示例图如下所示：densenetdensenet比resnet还狠，它的shortcu

2021-04-27 16:02:03 345

原创每周一文（十三）微软MV-DNN模型

契机传统DSSM双塔模型只有一个query塔和doc塔，这样导致的问题是不同质doc的特征不同，这样训练出的模型学习的东西很杂，没有对不同质doc进行不同的处理。这里MultiView-DNN解决的就是当前问题。模型结构MultiView-DNN将query-doc转换为推荐系统中的user-item，这样描述起来会更接地气一些。可以发现，对于不同质(view)的item，会输入到不同的塔中，并采用不同的DNN处理方式和激活函数，当数据输入某一个view时，其他view的输入为0，最终的目标如下所示

2021-04-15 17:01:08 589

原创每周一文（十二）GraphSage模型

契机GCN网络两个致命的点在于：每次都要计算邻接矩阵，如果图中的点太多，模型训练所占用的空间会很大。新节点的加入会导致邻接矩阵的变化，这样拓展性比较差。基于GCN上述两个问题，graphsage模型抛弃了图邻接矩阵的概念，改用聚合函数来代替邻接矩阵，且聚合函数的扩展性较强，可以完成比邻接矩阵更加复杂的操作。模型结构graphsage前向传播的算法如下所示：算法最外层是K次聚合函数，这些聚合函数可以相同也可以不同，之后对于词表中每一个点，均利用改点的邻居点通过聚合函数生成该点对应的前向em

2021-04-13 16:10:05 903

原创数学（零）零散知识点

平均数，众数，中位数平均数：所有数的平均众数：数组中出现最多的数中位数：数组中比这个数小的数的个数和比这个数大的数的个数相同

2021-04-11 21:36:38 282

原创数学（八）概率分布

均匀分布离散假设X有K个取值 x1,x2,...,xKx_1, x_2, ..., x_Kx1,x2,...,xK，概率密度函数为如下公式：P(X=xi)=1Ki=1,2,...,KP(X=x_i)=\frac{1}{K} \quad i = 1, 2, ..., KP(X=xi)=K1i=1,2,...,K连续x在[a,b][a,b][a,b]上的概率密度函数为如下公式：{1b−a if a≤x≤b0 otherwise \begin{case

2021-04-11 21:34:04 309

原创 ML基本知识（七）极大似然和极大后验

综述假如我们提取了一个数据集{(x(1),y(1)),(x(2),y(2)),...,(x(N),y(N))}\{(x^{(1)}, y^{(1)}),(x^{(2)}, y^{(2)}), ..., (x^{(N)}, y^{(N)})\}{(x(1),y(1)),(x(2),y(2)),...,(x(N),y(N))}，这些都是从联合分布P(X,Y)P(X,Y)P(X,Y)中提取出来的，且相互独立，现在无法把真实的联合分布计算出来，只能够通过用现有的数据集尽量构造一个联合分布去逼近真实的联合分布，问

2021-04-11 17:17:37 479

原创 ML基本知识（三）逻辑斯谛回归

应用背景该模型解决的是二分类问题，即y∈{0,1}y\in \{0,1\}y∈{0,1}，对数据做出的假设为伯努利分布，假设取1的真实概率为ϕ\phiϕ，目标为寻找到合适的ϕ\phiϕ，使得预测分布接近真实分布。公式如下所示：p(y=1/x;θ)=ϕp(y=0/x;θ)=1−ϕ\begin{matrix}p(y=1/x;\theta)=\phi\\ p(y=0/x;\theta)=1-\phi\end{matrix}p(y=1/x;θ)=ϕp(y=0/x;θ)=1−ϕ上述公式合二为一，即为

2021-04-11 17:10:44 211

原创数学（七）t-test

契机策略通过A/B test上线后需要观察指标的对比情况，那么如何评估策略带来的指标收益变化足够置信，这时需要用到t-test相关知识，本文会大致介绍t-test的原理。基本概念原假设 VS 备择假设原假设通俗易懂的理解就是一种合乎自然规律的猜想，而备择假设正好相反，它的思想是拒绝原假设。本文的示例如下所示：原假设：一枚硬币是正常硬币(多次实验下正反面出现次数相同)。备择假设：这枚硬币是非正常硬币(多次实验下正反面出现次数不同)。p值卡方(χ2\chi^2χ2)：一次实验中实验变量期望值(e

2021-04-10 22:38:43 659

原创算法（十五）数组之哈希表

数组之哈希表

2021-04-10 10:14:42 261 1

原创算法（十六）回溯法

算法之回溯法

2021-04-10 10:14:02 228 1

原创算法（二十）数组之滑动窗口

算法之滑动窗口

2021-04-10 10:13:26 1067 1

原创算法（十七）数组之数字

数组之数字

2021-04-10 10:06:56 1000 1

原创算法（十八）数组之贪心

算法之数组贪心

2021-04-10 10:06:39 747 1

原创算法（十九）数组之排序

数组之排序

2021-04-10 10:06:23 367 1

原创算法（十四）数组之双指针

数组之双指针

2021-04-10 09:44:05 749 1

原创每周一文（十一）google deep&cross模型

契机进一步完善wide&deep的wide侧提取特征的方式，而且在计算score过程中加入更多参数，从而进一步提升效果。模型结构cross下图红框中的模块为cross的具体操作流程，较为复杂。cross的具体操作细节如下图所示，可以看出多层的x0∗x′x_0*x'x0∗x′实现了高阶特征交叉，因为第一层相乘就可以得到二阶交叉特征((N∗1)×(1∗N)=N∗N(N*1) \times (1*N)=N*N(N∗1)×(1∗N)=N∗N)，第二层相乘可以得到三阶交叉特征…deep下图

2021-04-08 17:08:22 227 1

原创每周一文（十）华为deepFM模型

契机wide & deep 模型的wide侧特征需要人工构造，这个很吃工作量，而且有可能人工构造的特征也不太全，deepFM的思想是将特征工程的工作交给FM来做，这样提取到的二维交叉隐向量更全面。另一个较为重要的改动为deepFM模型wide侧和deep侧是共享底层embedding特征的，这样两侧模型的输入特征更多，因而效果会更好。模型结构FM component文章中的FM和传统的FM有些不一样，这里FM的隐向量并不是额外创建的，而是每个一维特征对应的embedding向量，这里也为后

2021-04-08 16:11:47 475

原创每周一文（九）google wide&deep模型

契机将一些显式的原始以及人工构造的交叉特征放到wide侧进行类似LR模型的操作，从而完成memorization的功能，这些特征已经被专家确定是对最终的结果有很大影响；将一些复杂特征，比如数值类型或者embedding等特征统一放到deep侧来提取更加高阶的特征，从而完成generalization的功能。模型结构模型核心结构如下所示：这个图其实并不是特别直观，甚至在实际应用中都没有严格遵循上图所画的结构。上图的意思是wide侧和deep侧之间特征是严格分开的，但实际应用中模型的结构如下图所示，可

2021-04-08 15:00:22 257

Python实现的以决策树为基准学习器的随机森林，从输入到输出完整的程序

SVM 文本分类与关键字检索

空空如也