每周一文
文章平均质量分 76
每周一文
LightYoungLee
啊嘿嘿啊哈哈
展开
-
每周一文(十五)谷歌MMOE模型
核心思想多目标推荐领域中落地较好的模型,利用不同的expert对多目标进行打分。模型结构传统多任务模型(a)通过shared bottom的方式先inference出高维emb,之后将该高维emb输入到不同的塔完成不同的任务。上述模型进一步进化得到模型(b),该模型包含N个expert,每个expert会输出各自的高维emb,之后通过一个gate来决定输出到不同的塔的不同高维emb的组合。再进一步进化后得到模型©,即通过多个gate来决定多个高维emb的组合,这也是MMOE的主要思想。代码实现代原创 2021-07-22 18:00:52 · 581 阅读 · 0 评论 -
每周一文(十四)谷歌YouTube-DNN推荐模型
核心思想文章介绍YouTube召回和排序模型,整体思想中规中矩,为推荐系统入门必读的模型。本文会大致阐述YouTube-DNN中的召回和排序模型。模型结构召回模型整体流程如下所示:特征召回模型用到的特征比较简单,总共分为四类:点击视频历史、搜索过的关键词、设备的地理位置信息以及用户的本质属性信息。这里值得一提的是,在构建用户点击视频历史时,不会将未来的点击视频加入到当前点击视频历史中,示意图如下所示,论文中提到(b)图的效果要比(a)图的效果好,因为不存在特征穿越的情况。样本召回模型的样原创 2021-05-26 10:44:24 · 527 阅读 · 0 评论 -
每周一文(十三)微软MV-DNN模型
契机传统DSSM双塔模型只有一个query塔和doc塔,这样导致的问题是不同质doc的特征不同,这样训练出的模型学习的东西很杂,没有对不同质doc进行不同的处理。这里MultiView-DNN解决的就是当前问题。模型结构MultiView-DNN将query-doc转换为推荐系统中的user-item,这样描述起来会更接地气一些。可以发现,对于不同质(view)的item,会输入到不同的塔中,并采用不同的DNN处理方式和激活函数,当数据输入某一个view时,其他view的输入为0,最终的目标如下所示原创 2021-04-15 17:01:08 · 486 阅读 · 0 评论 -
每周一文(十二)GraphSage模型
契机GCN网络两个致命的点在于:每次都要计算邻接矩阵,如果图中的点太多,模型训练所占用的空间会很大。新节点的加入会导致邻接矩阵的变化,这样拓展性比较差。基于GCN上述两个问题,graphsage模型抛弃了图邻接矩阵的概念,改用聚合函数来代替邻接矩阵,且聚合函数的扩展性较强,可以完成比邻接矩阵更加复杂的操作。模型结构graphsage前向传播的算法如下所示:算法最外层是K次聚合函数,这些聚合函数可以相同也可以不同,之后对于词表中每一个点,均利用改点的邻居点通过聚合函数生成该点对应的前向em原创 2021-04-13 16:10:05 · 755 阅读 · 0 评论 -
每周一文(十一)google deep&cross模型
契机进一步完善wide&deep的wide侧提取特征的方式,而且在计算score过程中加入更多参数,从而进一步提升效果。模型结构cross下图红框中的模块为cross的具体操作流程,较为复杂。cross的具体操作细节如下图所示,可以看出多层的x0∗x′x_0*x'x0∗x′实现了高阶特征交叉,因为第一层相乘就可以得到二阶交叉特征((N∗1)×(1∗N)=N∗N(N*1) \times (1*N)=N*N(N∗1)×(1∗N)=N∗N),第二层相乘可以得到三阶交叉特征…deep下图原创 2021-04-08 17:08:22 · 159 阅读 · 1 评论 -
每周一文(十)华为deepFM模型
契机wide & deep 模型的wide侧特征需要人工构造,这个很吃工作量,而且有可能人工构造的特征也不太全,deepFM的思想是将特征工程的工作交给FM来做,这样提取到的二维交叉隐向量更全面。另一个较为重要的改动为deepFM模型wide侧和deep侧是共享底层embedding特征的,这样两侧模型的输入特征更多,因而效果会更好。模型结构FM component文章中的FM和传统的FM有些不一样,这里FM的隐向量并不是额外创建的,而是每个一维特征对应的embedding向量,这里也为后原创 2021-04-08 16:11:47 · 333 阅读 · 0 评论 -
每周一文(九)google wide&deep模型
契机将一些显式的原始以及人工构造的交叉特征放到wide侧进行类似LR模型的操作,从而完成memorization的功能,这些特征已经被专家确定是对最终的结果有很大影响;将一些复杂特征,比如数值类型或者embedding等特征统一放到deep侧来提取更加高阶的特征,从而完成generalization的功能。模型结构模型核心结构如下所示:这个图其实并不是特别直观,甚至在实际应用中都没有严格遵循上图所画的结构。上图的意思是wide侧和deep侧之间特征是严格分开的,但实际应用中模型的结构如下图所示,可原创 2021-04-08 15:00:22 · 187 阅读 · 0 评论 -
每周一文(八)阿里MIND模型
契机单纯用一个embedding表示用户的兴趣爱好,效果会很差,因而需要用多个embedding来共同表示用户的兴趣爱好。模型结构模型的核心结构如下所示:模型阐述训练阶段:利用Capsule NN模型生成多个user_embedding,并通过Label-aware attention机制构建基于用户兴趣和target item的交叉特征,最终通过负采样机制构建正负样本以及构建损失函数,从而完成整体的模型搭建。serving阶段:利用多个兴趣embedding向量召回item_embeddin原创 2021-04-05 22:59:23 · 1714 阅读 · 0 评论 -
每周一文(七)阿里DIEN模型
契机对用户兴趣进行进一步的抽象建模,从而更加精确地提取用户兴趣。模型结构模型的核心结构如下所示:模型阐述模型的核心组件分为四个部分:用户行为层、兴趣提取层、辅助loss以及兴趣进化层,如下会分别对这四个部分进行讲述。用户行为层这一层比较简单,即将用户的item播放历史中的item转换为embedding,为后续步骤提供数据基础。兴趣提取层这一层的核心目标为将用户的播放历史以时间为基础抽象出用户的兴趣。具体调用的计算模块为GRU。个人用一个较为简单易懂的例子来解释该场景:一开始用户点击了一原创 2021-04-04 17:43:57 · 309 阅读 · 0 评论 -
每周一文(六)Facebook EBR向量召回模型
契机从样本和模型两方面来介绍向量级别召回模型的由来。提出很有建设性的工业级别的参考价值。样本角度有监督的二分类模型需要构建正负样本,正样本的选择不管是召回和排序来说都是一致的,即用户有显式的点击行为的样本为正样本。而对于召回模型(甚至对于粗排模型)来说,负样本的选择至关重要,如下会介绍正样本的构建方法和两种级别的负样本构建方法。正样本抽样有些item在用户显式点击反馈中出现的次数过高,这会导致召回模型会被这些item绑架,因而需要对用户显式点击反馈中的item进行抽样,被抽到的概率为如下公式,其中原创 2021-04-04 16:15:09 · 1311 阅读 · 0 评论 -
每周一文(五)阿里DIN模型
契机对于当前预测的item,用户行为列表中每一个item对最终结果的影响程度不同,引入attention来求出用户行为列表中每个item的权重,并将这些item对应的embedding加权求和得到最终的用户行为embedding向量。模型核心内容对于用户行为历史中的每个itemiitem_iitemi,都与当前预测itempredictitem_{predict}itempredict进行一次attention交互得到itemiitem_iitemi的权重wiw_iwi。上图中attenti原创 2021-04-01 21:22:15 · 180 阅读 · 0 评论 -
每周一文(三)阿里ESMM模型
应用场景淘宝购物的流程简化为点击->购买,该模型的目标为提升购买率(专业名词为转化率conversion rate),数据整体描述为:S={(xi,yi→zi)}∣i=1NS = \{ (x_i,y_i\rightarrow z_i)\}|_{i=1}^NS={(xi,yi→zi)}∣i=1N其中xix_ixi为特征空间,yiy_iyi(点击)和ziz_izi(购买)为标签空间。算法原理传统CVR模型是直接预估CVR的,但有如下两个缺点:样本偏差:模型学习时输入样本为点击样原创 2021-03-20 19:46:23 · 422 阅读 · 0 评论 -
每周一文(二)阿里TDM模型
核心思想本论文提出模型TDM算法解决两个核心问题:抛弃以往通过计算user和item embedding相似度(cos or其他)作为user和item相似标准,来召回与user最相似的topK的item的做法。设计一个可插拔的通用召回模型。具体思路论文的总体思路是训练一个树模型,并将这个树模型推送至线上进行召回,分为三大步:初始化树模型训练树模型推送至线上,选取topK item作为召回如下会对上述三个核心分别进行介绍。初始化树模型文章构建的树模型如下所示:每个叶子节点对原创 2021-01-20 09:56:59 · 1441 阅读 · 0 评论 -
每周一文(一)The BellKor Solution to the Netflix Grand Prize
提纲BASELINE PREDICTORSbui=μ+bu+bib_{ui}=\mu+b_u+b_ibui=μ+bu+bi添加时间因子的bub_ubu和bib_ibi …Frequencies不讲MATRIX FACTORIZATION WITH TEMPORAL DYNAMICS需要讲述该公式的由来(Factorization Meets the Neig...原创 2020-05-03 21:12:07 · 584 阅读 · 0 评论