2021-08-23

最新推荐文章于 2021-11-17 11:36:58 发布

旺仔的算法coding笔记

最新推荐文章于 2021-11-17 11:36:58 发布

阅读量123

点赞数

分类专栏： Recommend

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangwangstone/article/details/119880011

版权

Recommend 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

这篇博客介绍了推荐系统中Rank模块的基本概念，包括从粗排到精排的过程，以及CTR预估的重要性。文中提到了FM模型和FFM的特征组合，并探讨了深度学习在Rank模块的应用，如Wide&Deep模型。此外，还讨论了优化器的选择，如FTRL和AdaGrad。

摘要由CSDN通过智能技术生成

Rech7推荐系统的rank 模块简单介绍

本文是对七月在线推荐课程rank模块入门介绍的一个简单笔记，本文围绕rank基本总述、ctr预估、FM案例、GBDT+LR、Wide&Deep展开。

目录

推荐系统的rank 模块简单总述

FFM 引入隐向量：

深度学习的应用

优化器选择：

推荐系统的rank 模块简单总述

通常做法：用各种算法做召回，比如user/item/model-based CF 等作为输入，做粗排(有的没有）之后交由后面的rank层结合更精细的side_info 做排序，最终展现TopK item给用户。

rank 算法典型应用

ctr 预估、cvr 预估、watch time 预估、learning to rank ？ todo 待请教

多目标排序

rank 算法应用示意图

candidate 召回模块

DB :数据索引

PS： parameter server 模型服务部分

rank 的基本流程：

典型的机器学习流程

ctr 预估：

ctr预估的是一个二分类问题。

➢ 二分类问题
➢ label:y为0/1
➢ 特征:X
➢ 假设H:p(x) = H(X) ，

算法核心 ➢ Loss = -y log(p) - (1 - y) log(1 - p) （交叉熵损失)

➢ 评估:

➢ offline: AUC/MAPE/gauc

➢ online: 业务指标（如点击率，停留时长等）

最基本的算法 LR

➢ 从统计机器学习的角度 ➢ 特征向量: 𝑋𝑖

➢ Label:𝑦𝑖
➢ 模型权重: 𝑊
➢假设𝑋𝑖与𝑃 𝑦𝑖 :𝑃 𝑦𝑖 =1 =𝑠𝑖𝑔𝑚𝑜𝑖𝑑(𝑊∗𝑋𝑖+𝑏)

➢经典问题:为什么L1比L2有更强的稀疏性

参考： https://www.zhihu.com/question/37096933 ，

这个待细查。视频大概28-20min

FM的例子

FM（Factorization Machine)

参考： FM(FactorizationMachine)是由Konstanz大学SteffenRendle(现任职于Google)于2010年最早提出的，旨在解决稀疏数据下的特征组合问题

• 解释
• 进行二元分类时，FM的输出需要经过sigmoid变换，这与Logistic回归是一样的 • 自动特征组合(某种意义上)
• 特征组合参数n*(n-1)/2
• 引入特征隐向量，参数n*k个

• 直观上看，FM的复杂度是O(kn2)。
• 但是，FM的二次项可以化简，其复杂度可以优化到O(kn)

tensorflow 里实现FM : https://github.com/challenge-ICME2019-Bytedance/Bytedance_ICME_challenge/blob/master/model_zoo/fm.py

FFM 引入隐向量：

通过引入field的概念，FFM把相同性质的特征归于同一个field。

FFM中，每一维特征xi，针对其它特征的每一种fj，都会学习一个隐向量𝑣𝑖,𝑓𝑗。因此，隐向量不仅与特征相关，也与field相关。也就是说，“Day=26/11/15”这个特征与“Country”特征和“Ad_type”特征进行关联的时候使用不同的隐向量，这与“Country”和“Ad_type”的内在差异相符，也是FFM中“field-aware” 的由来。

OpenMP （工程实现里封装里的trick)

OpenMP是由一组计算机硬件和软件供应商联合定义的应用程序接口(API)。OpenMP为基于共享内存的并行程序的开发人员提供了一种便携式和可扩展的编程模型，其API支持各种架构上的C/C++和 Fortran。

加上一句去调用openmp来实现对程序的并行计算，

SSE 指令集优化（了解即可）

特征工程：

人工特征工程+ 线性模型

GBDT + LR (Facebook) 的论文（筛选特征时的做法，来自论文）

深度学习的应用

Wide & Deep(Google)

优化器选择：

wide 部分用的优化器： :FTRLwithL1-regularization （先简单记住）

deep部分的用的优化器是： AdaGrad .

各种优化器之间的区别

todo 待进一步阅读： https://zhuanlan.zhihu.com/p/40344593

深度学习排序算法发展图：

• https://github.com/shenweichen/DeepCTR

• https://zhuanlan.zhihu.com/p/53231955

DLRM(Facebook)

DeepLearningRecommendationModelforPersonalizationandRecommendationSystems

Previous Core Techniques ：过去的核心技能

• Embeddings

Matrix Factorization
Factorization Machine
Multilayer Perceptrons

字节跳动短视频内容理解与推荐竞赛

https://github.com/challenge-ICME2019-Bytedance/Bytedance_ICME_challenge

这个已经过期

master/model_zoo/fm.py 的实现

旺仔的算法coding笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

旺仔的算法coding笔记 CSDN认证博客专家 CSDN认证企业博客

码龄10年

155: 原创

5万+: 周排名

1万+: 总排名

65万+: 访问

: 等级

3711: 积分

107: 粉丝

378: 获赞

78: 评论

1385: 收藏

私信

关注

热门文章

分类专栏

最新评论

pandas.DataFrame.from_dict直接从字典构建DataFrame
人参果_zero_: 博主，我想问一下比如不想要列名怎么办啊，就是创建了一个文件，写入的时候只要值，不要关键字
Eclipse安装Maven插件问题
m0_72741207: 华佗再世啊！！！！
GLM-130B-一个开放的双语通用预训练模型-论文精读
AI_央木: 大佬， glm的注意力双向和单向的介绍，刘潇的视频大概在14min左右，这个视频在哪呢，有链接吗
GLM-130B-一个开放的双语通用预训练模型-论文精读
CSDN-Ada助手: 亲爱的博主，您的创作真不容易！我真心佩服您的辛勤努力和专业知识。标题"GLM-130B-一个开放的双语通用预训练模型-论文精读"让人着实期待了一场学术盛宴。但我可以预见，您肯定还有更多精彩内容在等待我们。所以，我想为您生成下一篇可能创作的博客标题：“如何利用GLM-130B进一步优化自然语言处理技术？”期待您的新作！
lightgbm 安装报错解决
lindasusany: 真的有用！！！！感谢博主拯救可怜mac用户！！！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。