2021-08-23

这篇博客介绍了推荐系统中Rank模块的基本概念,包括从粗排到精排的过程,以及CTR预估的重要性。文中提到了FM模型和FFM的特征组合,并探讨了深度学习在Rank模块的应用,如Wide&Deep模型。此外,还讨论了优化器的选择,如FTRL和AdaGrad。
摘要由CSDN通过智能技术生成

Rech7推荐系统的rank 模块简单介绍 

本文是对七月在线推荐课程rank模块入门介绍的一个简单笔记,本文围绕rank基本总述、ctr预估、FM案例、GBDT+LR、Wide&Deep展开。 

目录

推荐系统的rank 模块简单总述

 ctr 预估: 

 FM的例子

FFM 引入隐向量: 

深度学习的应用  

优化器选择:

推荐系统的rank 模块简单总述

通常做法: 用各种算法做 召回,比如user/item/model-based CF 等作为输入,做粗排(有的没有) 之后交由后面的rank层结合更精细的side_info 做排序,最终展现TopK item给用户。

rank 算法典型应用 

ctr 预估、cvr 预估 、watch time 预估、learning to  rank    ? todo 待请教 

多目标排序

rank 算法应用示意图

 

candidate  召回模块 

DB :数据 索引

PS:  parameter server  模型服务部分

rank 的基本流程: 

典型的机器学习流程 

 ctr 预估: 

ctr预估的是一个二分类问题。

➢ 二分类问题
label:y为0/1
➢ 特征:X
➢ 假设H:p(x) = H(X) ,

        算法核心 ➢ Loss = -y log(p) - (1 - y) log(1 - p)  (交叉熵损失) 

 ➢ 评估: 

        ➢ offline: AUC/MAPE/gauc

        ➢ online: 业务指标(如点击率,停留时长等) 

最基本的算法 LR 

➢ 从统计机器学习的角度 ➢ 特征向量: 𝑋𝑖 

➢ Label:𝑦𝑖
➢ 模型权重: 𝑊
➢假设𝑋𝑖与𝑃 𝑦𝑖 :𝑃 𝑦𝑖 =1 =𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑊∗𝑋𝑖+𝑏)

 

➢经典问题:为什么L1比L2有更强的稀疏性 

参考: https://www.zhihu.com/question/37096933  ,

这个待细查。 视频大概28-20min 

 FM的例子

FM(Factorization Machine)   

参考: FM(FactorizationMachine)是由Konstanz大学SteffenRendle(现任职于Google)于2010年最早提出 的,旨在解决稀疏数据下的特征组合问题 

• 解释
• 进行二元分类时,FM的输出需要经过sigmoid变换,这与Logistic回归是一样的 • 自动特征组合(某种意义上)
• 特征组合参数n*(n-1)/2
• 引入特征隐向量,参数n*k个 

• 直观上看,FM的复杂度是O(kn2)。
• 但是,FM的二次项可以化简,其复杂度可以优化到O(kn)

tensorflow 里实现FM  : https://github.com/challenge-ICME2019-Bytedance/Bytedance_ICME_challenge/blob/master/model_zoo/fm.py

FFM 引入隐向量: 

通过引入field的概念,FFM把相同性质的特征归于同一个field。 

FFM中,每一维特征xi,针对其它特征的每一种fj,都会学习一个隐向量𝑣𝑖,𝑓𝑗。因此,隐向量不仅与特征 相关,也与field相关。也就是说,“Day=26/11/15”这个特征与“Country”特征和“Ad_type”特征进行关 联的时候使用不同的隐向量,这与“Country”和“Ad_type”的内在差异相符,也是FFM中“field-aware” 的由来。 

OpenMP (工程实现里封装里的trick)

OpenMP是由一组计算机硬件和软件供应商联合定义的应用程序接口(API)。OpenMP为基于共享内存 的并行程序的开发人员提供了一种便携式和可扩展的编程模型,其API支持各种架构上的C/C++和 Fortran。 

加上一句去调用openmp来实现对程序的并行计算, 

SSE 指令集优化  (了解即可)

特征工程  : 

人工特征工程+ 线性模型 

GBDT + LR (Facebook)  的论文( 筛选特征时的做法,来自论文) 

 

深度学习的应用  

Wide & Deep(Google) 

 

 

 

 

优化器选择:

wide 部分用的优化器 : :FTRLwithL1-regularization (先简单记住) 

deep部分的用的优化器是:  AdaGrad  . 

各种优化器之间的区别

todo 待进一步阅读 : https://zhuanlan.zhihu.com/p/40344593 

深度学习排序算法发展图: 

 

https://github.com/shenweichen/DeepCTR

• https://zhuanlan.zhihu.com/p/53231955 

DLRM(Facebook) 

DeepLearningRecommendationModelforPersonalizationandRecommendationSystems 

Previous Core Techniques : 过去的核心技能

  • Embeddings 

  • Matrix Factorization 
  • Factorization Machine
  • Multilayer Perceptrons

字节跳动短视频内容理解与推荐竞赛

https://github.com/challenge-ICME2019-Bytedance/Bytedance_ICME_challenge 

这个已经过期

master/model_zoo/fm.py 的实现  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值