Rech7推荐系统的rank 模块简单介绍
本文是对七月在线推荐课程rank模块入门介绍的一个简单笔记,本文围绕rank基本总述、ctr预估、FM案例、GBDT+LR、Wide&Deep展开。
目录
推荐系统的rank 模块简单总述
通常做法: 用各种算法做 召回,比如user/item/model-based CF 等作为输入,做粗排(有的没有) 之后交由后面的rank层结合更精细的side_info 做排序,最终展现TopK item给用户。
rank 算法典型应用
ctr 预估、cvr 预估 、watch time 预估、learning to rank ? todo 待请教
多目标排序
rank 算法应用示意图
candidate 召回模块
DB :数据 索引
PS: parameter server 模型服务部分
rank 的基本流程:
典型的机器学习流程
ctr 预估:
ctr预估的是一个二分类问题。
➢ 二分类问题
➢ label:y为0/1
➢ 特征:X
➢ 假设H:p(x) = H(X) ,
算法核心 ➢ Loss = -y log(p) - (1 - y) log(1 - p) (交叉熵损失)
➢ 评估:
➢ offline: AUC/MAPE/gauc
➢ online: 业务指标(如点击率,停留时长等)
最基本的算法 LR
➢ 从统计机器学习的角度 ➢ 特征向量: 𝑋𝑖
➢ Label:𝑦𝑖
➢ 模型权重: 𝑊
➢假设𝑋𝑖与𝑃 𝑦𝑖 :𝑃 𝑦𝑖 =1 =𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑊∗𝑋𝑖+𝑏)
➢经典问题:为什么L1比L2有更强的稀疏性
参考: https://www.zhihu.com/question/37096933 ,
这个待细查。 视频大概28-20min
FM的例子
FM(Factorization Machine)
参考: FM(FactorizationMachine)是由Konstanz大学SteffenRendle(现任职于Google)于2010年最早提出 的,旨在解决稀疏数据下的特征组合问题
• 解释
• 进行二元分类时,FM的输出需要经过sigmoid变换,这与Logistic回归是一样的 • 自动特征组合(某种意义上)
• 特征组合参数n*(n-1)/2
• 引入特征隐向量,参数n*k个
• 直观上看,FM的复杂度是O(kn2)。
• 但是,FM的二次项可以化简,其复杂度可以优化到O(kn)
tensorflow 里实现FM : https://github.com/challenge-ICME2019-Bytedance/Bytedance_ICME_challenge/blob/master/model_zoo/fm.py
FFM 引入隐向量:
通过引入field的概念,FFM把相同性质的特征归于同一个field。
FFM中,每一维特征xi,针对其它特征的每一种fj,都会学习一个隐向量𝑣𝑖,𝑓𝑗。因此,隐向量不仅与特征 相关,也与field相关。也就是说,“Day=26/11/15”这个特征与“Country”特征和“Ad_type”特征进行关 联的时候使用不同的隐向量,这与“Country”和“Ad_type”的内在差异相符,也是FFM中“field-aware” 的由来。
OpenMP (工程实现里封装里的trick)
OpenMP是由一组计算机硬件和软件供应商联合定义的应用程序接口(API)。OpenMP为基于共享内存 的并行程序的开发人员提供了一种便携式和可扩展的编程模型,其API支持各种架构上的C/C++和 Fortran。
加上一句去调用openmp来实现对程序的并行计算,
SSE 指令集优化 (了解即可)
特征工程 :
人工特征工程+ 线性模型
GBDT + LR (Facebook) 的论文( 筛选特征时的做法,来自论文)
深度学习的应用
Wide & Deep(Google)
优化器选择:
wide 部分用的优化器 : :FTRLwithL1-regularization (先简单记住)
deep部分的用的优化器是: AdaGrad .
各种优化器之间的区别
todo 待进一步阅读 : https://zhuanlan.zhihu.com/p/40344593
深度学习排序算法发展图:
• https://github.com/shenweichen/DeepCTR
• https://zhuanlan.zhihu.com/p/53231955
DLRM(Facebook)
DeepLearningRecommendationModelforPersonalizationandRecommendationSystems
Previous Core Techniques : 过去的核心技能
• Embeddings
- Matrix Factorization
- Factorization Machine
- Multilayer Perceptrons
字节跳动短视频内容理解与推荐竞赛
https://github.com/challenge-ICME2019-Bytedance/Bytedance_ICME_challenge
这个已经过期
master/model_zoo/fm.py 的实现