- 博客(109)
- 资源 (2)
- 收藏
- 关注
原创 推荐系统(十九)推荐系统中的专业名词
tgi全称为target group index,即用户画像中的标签,比如用户是否有车,是否有房。参考用户画像TGI
2021-12-26 10:43:48 431
原创 DL基本知识(七)FTRL优化器
随笔:寻优过程是随机选择一个样本进行梯度更新,很多情况下L1正则化也不会导致选择的最优值落在"角"上,因而稀疏性也不是这么明显。
2021-11-27 20:59:03 2113
原创 每周一文(十五)谷歌MMOE模型
核心思想多目标推荐领域中落地较好的模型,利用不同的expert对多目标进行打分。模型结构传统多任务模型(a)通过shared bottom的方式先inference出高维emb,之后将该高维emb输入到不同的塔完成不同的任务。上述模型进一步进化得到模型(b),该模型包含N个expert,每个expert会输出各自的高维emb,之后通过一个gate来决定输出到不同的塔的不同高维emb的组合。再进一步进化后得到模型©,即通过多个gate来决定多个高维emb的组合,这也是MMOE的主要思想。代码实现代
2021-07-22 18:00:52 763
原创 ML基本知识(十六)损失函数
推荐系统相关pairwise hinge loss其衡量的是pairwise场景下正负样本的差异,公式如下所示,其中marginmarginmargin代表的是预设的阈值,uuu代表输入query,d+d+d+代表的是正样本,d−d-d−代表的是负样本,<><><>代表的是两个向量之间的相似度,该公式代表的含义是只有当输入query与正样本足够相似时,loss才会降为0,否则与正样本越不相似或者与负样本越相似,则loss都会变得很大。loss=max(0,margi
2021-06-15 09:05:46 2210
原创 每周一文(十四)谷歌YouTube-DNN推荐模型
核心思想文章介绍YouTube召回和排序模型,整体思想中规中矩,为推荐系统入门必读的模型。本文会大致阐述YouTube-DNN中的召回和排序模型。模型结构召回模型整体流程如下所示:特征召回模型用到的特征比较简单,总共分为四类:点击视频历史、搜索过的关键词、设备的地理位置信息以及用户的本质属性信息。这里值得一提的是,在构建用户点击视频历史时,不会将未来的点击视频加入到当前点击视频历史中,示意图如下所示,论文中提到(b)图的效果要比(a)图的效果好,因为不存在特征穿越的情况。样本召回模型的样
2021-05-26 10:44:24 623
原创 NLP(五)transformer模型
核心思想transformer模型的基本思想来源于seq2seq模型和attention机制,建议大家先了解下这两方面的基本知识,之后会发现transformer的原理比较简单。其整体的示意图如下所示,下文会对该模型进行详细讲述。模型结构知乎大大已经把transformer的结构讲的很清楚了,这里我只是想阐述一下我个人的几点理解。模型整体依然是encoder-decoder结构,只不过encoder和decoder内部用到的模型和seq2seq不同,如下阐述下encoder和decoder的模型结
2021-05-25 16:17:18 334
原创 NLP(四)seq2seq模型
核心思想encoder-decoder机制,通过输入一系列的变长的单词序列(X1,X2,...,XNX_1, X_2, ..., X_NX1,X2,...,XN),先通过运算得到语义编码(CCC),再通过运算将语义编码生成另一个空间中的一系列单词(Y1,Y2,...,YMY_1, Y_2, ..., Y_MY1,Y2,...,YM),示例图如下所示:模型结构模型结构主要由两部分组成,encoder和decoder,如下会对两者进行详细介绍。encoderencoder并不局限于一种模
2021-05-25 15:52:09 300
原创 DL基本知识(六)循环神经网络
RNN与CNN不同的点在于其将时间维度引入模型中,整体示意图如下所示。可以看出下图每一个cell都比较简单,只有一个tanh操作,ht−1h_{t-1}ht−1和hth_tht之间的转移关系如下所示:ht=tanh(Wh⋅[ht−1,xt]+bh)h_t =tanh(W_h\cdot [h_{t-1}, x_t] + b_h)ht=tanh(Wh⋅[ht−1,xt]+bh)从上述公式可以看出,RNN本时刻的隐藏层信息只来源于当前输入和上一时刻的隐藏层信息,没有记忆功能,因而无法处理长期依
2021-05-24 16:09:26 351 5
原创 NLP(三)attention机制
核心思想把一个query翻译成source的组合结果,组合过程中会用到的系数为key,示意图如下所示:下图为上图的细节展开,可以看出query通过一系列key和变换函数F后得到一系列的score(s),经过softmax归一化之后得到一系列的系数a,之后再将这些系数一一与value相乘并相加得到最终的attention value。优缺点优点一步到位的全局联系捕捉并行计算减少模型训练时间模型复杂度小,参数少缺点不能捕捉语序顺序的相关信息,因为其本身是一个精致的词袋模型。self-
2021-05-17 17:02:52 751
原创 ML基本知识(十五)Kmeans
核心思想Kmeans是一个无监督的问题,想要达到的目标是把数据聚成k类。在说算法之前必须说一下Kmeans的理论基础,也就是能够进行Kmeans操作的前提是每一个簇中的数据都服从高斯分布,也就是说数据是服从混合高斯模型的,而且假设每一个高斯模型的方差都是相同的,这样才能够保证结果是正确的,即对于每一个点的概率如下,xi∼N(μi,σ)x_i \sim N(\mu_i, \sigma)xi∼N(μi,σ)而对于所有的数据,它的似然概率为:∏j=1K∏i=1Nj(12πσe−(xji−μj)22σ2
2021-05-17 16:32:54 402
原创 DL基本知识(五)神经网络经典模型
resnet模型层数加深后效果会有退化,这不是过拟合的原因(训练和测试的误差都很高),也不是梯度消失的问题(有BN),因而这些极深的模型学偏了,忘记了初心,即学习"什么都不做"在网络加深的过程中会变得越来越困难。resnet通过恒等映射来解决上述问题,其中关键点在于映射的shortcut,示意图如下所示:可以看出,模型拟合的输入+残差,而不是简单的一个输出,这样的一个好处是反向传播过程中梯度不会很快的衰减下去,示例图如下所示:densenetdensenet比resnet还狠,它的shortcu
2021-04-27 16:02:03 263
原创 每周一文(十三)微软MV-DNN模型
契机传统DSSM双塔模型只有一个query塔和doc塔,这样导致的问题是不同质doc的特征不同,这样训练出的模型学习的东西很杂,没有对不同质doc进行不同的处理。这里MultiView-DNN解决的就是当前问题。模型结构MultiView-DNN将query-doc转换为推荐系统中的user-item,这样描述起来会更接地气一些。可以发现,对于不同质(view)的item,会输入到不同的塔中,并采用不同的DNN处理方式和激活函数,当数据输入某一个view时,其他view的输入为0,最终的目标如下所示
2021-04-15 17:01:08 536
原创 每周一文(十二)GraphSage模型
契机GCN网络两个致命的点在于:每次都要计算邻接矩阵,如果图中的点太多,模型训练所占用的空间会很大。新节点的加入会导致邻接矩阵的变化,这样拓展性比较差。基于GCN上述两个问题,graphsage模型抛弃了图邻接矩阵的概念,改用聚合函数来代替邻接矩阵,且聚合函数的扩展性较强,可以完成比邻接矩阵更加复杂的操作。模型结构graphsage前向传播的算法如下所示:算法最外层是K次聚合函数,这些聚合函数可以相同也可以不同,之后对于词表中每一个点,均利用改点的邻居点通过聚合函数生成该点对应的前向em
2021-04-13 16:10:05 832
原创 数学(零)零散知识点
平均数,众数,中位数平均数:所有数的平均众数:数组中出现最多的数中位数:数组中比这个数小的数的个数和比这个数大的数的个数相同
2021-04-11 21:36:38 259
原创 数学(八)概率分布
均匀分布离散假设X有K个取值 x1,x2,...,xKx_1, x_2, ..., x_Kx1,x2,...,xK,概率密度函数为如下公式:P(X=xi)=1Ki=1,2,...,KP(X=x_i)=\frac{1}{K} \quad i = 1, 2, ..., KP(X=xi)=K1i=1,2,...,K连续x在[a,b][a,b][a,b]上的概率密度函数为如下公式:{1b−a if a≤x≤b0 otherwise \begin{case
2021-04-11 21:34:04 277
原创 ML基本知识(七)极大似然和极大后验
综述假如我们提取了一个数据集{(x(1),y(1)),(x(2),y(2)),...,(x(N),y(N))}\{(x^{(1)}, y^{(1)}),(x^{(2)}, y^{(2)}), ..., (x^{(N)}, y^{(N)})\}{(x(1),y(1)),(x(2),y(2)),...,(x(N),y(N))}, 这些都是从联合分布P(X,Y)P(X,Y)P(X,Y)中提取出来的,且相互独立,现在无法把真实的联合分布计算出来,只能够通过用现有的数据集尽量构造一个联合分布去逼近真实的联合分布,问
2021-04-11 17:17:37 450
原创 ML基本知识(三)逻辑斯谛回归
应用背景该模型解决的是二分类问题,即y∈{0,1}y\in \{0,1\}y∈{0,1},对数据做出的假设为伯努利分布,假设取1的真实概率为ϕ\phiϕ,目标为寻找到合适的ϕ\phiϕ,使得预测分布接近真实分布。公式如下所示:p(y=1/x;θ)=ϕp(y=0/x;θ)=1−ϕ\begin{matrix}p(y=1/x;\theta)=\phi\\ p(y=0/x;\theta)=1-\phi\end{matrix}p(y=1/x;θ)=ϕp(y=0/x;θ)=1−ϕ上述公式合二为一,即为
2021-04-11 17:10:44 186
原创 数学(七)t-test
契机策略通过A/B test上线后需要观察指标的对比情况,那么如何评估策略带来的指标收益变化足够置信,这时需要用到t-test相关知识,本文会大致介绍t-test的原理。基本概念原假设 VS 备择假设原假设通俗易懂的理解就是一种合乎自然规律的猜想,而备择假设正好相反,它的思想是拒绝原假设。本文的示例如下所示:原假设:一枚硬币是正常硬币(多次实验下正反面出现次数相同)。备择假设:这枚硬币是非正常硬币(多次实验下正反面出现次数不同)。p值卡方(χ2\chi^2χ2):一次实验中实验变量期望值(e
2021-04-10 22:38:43 583
原创 每周一文(十一)google deep&cross模型
契机进一步完善wide&deep的wide侧提取特征的方式,而且在计算score过程中加入更多参数,从而进一步提升效果。模型结构cross下图红框中的模块为cross的具体操作流程,较为复杂。cross的具体操作细节如下图所示,可以看出多层的x0∗x′x_0*x'x0∗x′实现了高阶特征交叉,因为第一层相乘就可以得到二阶交叉特征((N∗1)×(1∗N)=N∗N(N*1) \times (1*N)=N*N(N∗1)×(1∗N)=N∗N),第二层相乘可以得到三阶交叉特征…deep下图
2021-04-08 17:08:22 185 1
原创 每周一文(十)华为deepFM模型
契机wide & deep 模型的wide侧特征需要人工构造,这个很吃工作量,而且有可能人工构造的特征也不太全,deepFM的思想是将特征工程的工作交给FM来做,这样提取到的二维交叉隐向量更全面。另一个较为重要的改动为deepFM模型wide侧和deep侧是共享底层embedding特征的,这样两侧模型的输入特征更多,因而效果会更好。模型结构FM component文章中的FM和传统的FM有些不一样,这里FM的隐向量并不是额外创建的,而是每个一维特征对应的embedding向量,这里也为后
2021-04-08 16:11:47 390
原创 每周一文(九)google wide&deep模型
契机将一些显式的原始以及人工构造的交叉特征放到wide侧进行类似LR模型的操作,从而完成memorization的功能,这些特征已经被专家确定是对最终的结果有很大影响;将一些复杂特征,比如数值类型或者embedding等特征统一放到deep侧来提取更加高阶的特征,从而完成generalization的功能。模型结构模型核心结构如下所示:这个图其实并不是特别直观,甚至在实际应用中都没有严格遵循上图所画的结构。上图的意思是wide侧和deep侧之间特征是严格分开的,但实际应用中模型的结构如下图所示,可
2021-04-08 15:00:22 218
原创 每周一文(八)阿里MIND模型
契机单纯用一个embedding表示用户的兴趣爱好,效果会很差,因而需要用多个embedding来共同表示用户的兴趣爱好。模型结构模型的核心结构如下所示:模型阐述训练阶段:利用Capsule NN模型生成多个user_embedding,并通过Label-aware attention机制构建基于用户兴趣和target item的交叉特征,最终通过负采样机制构建正负样本以及构建损失函数,从而完成整体的模型搭建。serving阶段:利用多个兴趣embedding向量召回item_embeddin
2021-04-05 22:59:23 1879
原创 ML基本知识(十四)激活函数
激活函数本质增加神经网络的非线性型,具体而言为提升神经网络的拟合能力。各类激活函数relu求导f′(x)={1 if x>00 if x⩽0f'(x)=\left\{\begin{matrix}1 \ \ \ \ if \ x > 0 \\ 0 \ \ \ \ if \ x \leqslant 0 \end{matrix}\right.f′(x)={1 &
2021-04-04 20:01:33 196
原创 每周一文(七)阿里DIEN模型
契机对用户兴趣进行进一步的抽象建模,从而更加精确地提取用户兴趣。模型结构模型的核心结构如下所示:模型阐述模型的核心组件分为四个部分:用户行为层、兴趣提取层、辅助loss以及兴趣进化层,如下会分别对这四个部分进行讲述。用户行为层这一层比较简单,即将用户的item播放历史中的item转换为embedding,为后续步骤提供数据基础。兴趣提取层这一层的核心目标为将用户的播放历史以时间为基础抽象出用户的兴趣。具体调用的计算模块为GRU。个人用一个较为简单易懂的例子来解释该场景:一开始用户点击了一
2021-04-04 17:43:57 372
原创 每周一文(六)Facebook EBR向量召回模型
契机从样本和模型两方面来介绍向量级别召回模型的由来。提出很有建设性的工业级别的参考价值。样本角度有监督的二分类模型需要构建正负样本,正样本的选择不管是召回和排序来说都是一致的,即用户有显式的点击行为的样本为正样本。而对于召回模型(甚至对于粗排模型)来说,负样本的选择至关重要,如下会介绍正样本的构建方法和两种级别的负样本构建方法。正样本抽样有些item在用户显式点击反馈中出现的次数过高,这会导致召回模型会被这些item绑架,因而需要对用户显式点击反馈中的item进行抽样,被抽到的概率为如下公式,其中
2021-04-04 16:15:09 1469
原创 每周一文(五)阿里DIN模型
契机对于当前预测的item,用户行为列表中每一个item对最终结果的影响程度不同,引入attention来求出用户行为列表中每个item的权重,并将这些item对应的embedding加权求和得到最终的用户行为embedding向量。模型核心内容对于用户行为历史中的每个itemiitem_iitemi,都与当前预测itempredictitem_{predict}itempredict进行一次attention交互得到itemiitem_iitemi的权重wiw_iwi。上图中attenti
2021-04-01 21:22:15 233
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人