CTR模型

本文深入探讨了CTR(点击率)模型,从Logistic Regression、GBDT到FM和FFM,分析了各种模型在处理离散和连续特征时的优缺点,并提到了特征处理和组合的策略,旨在提高推荐系统的预测准确性。
摘要由CSDN通过智能技术生成

ctr

ctr(广告点击率)与cvr(广告转化率)是在推荐系统中的重要概念。CTR预估正样本为站内点击的用户-商品记录,负样本为展现但未点击的记录;CVR正样本为站内支付(发生转化)的用户-商品记录,负样本为点击但未支付的记录。
CTR和CVR预估模型为线下估计,用于线上测试,特征主要分为三类:用户相关特征包括年龄、性别、职业、兴趣、品类偏好、浏览/购买品类、近期点击量、购买量、消费额等,商品相关特征包括所属品类、销量、价格、评分、历史CTR/CVR,用户-商品匹配特征包括浏览/购买品类匹配、浏览/购买商家匹配、兴趣偏好匹配等。

Logistic Regression

通常,推荐系统数据为高维离散特征,因此十分适用于logistic regression,具体上可表述为
f ( x ) = 1 1 + e − θ T X f(x)=\frac{1}{1+e^{-\theta^TX}} f(x)=1+eθTX1
其优势在于模型简单易于理解,且容易实现分布式计算,另外有Google的FTRL [ 2 ] ^{[2]} [2]等变种模型,其可统一概括为:LR+正则+特定优化。
但LR模型忽略了特征之间的联系,多个特征之间可能存在交叉关系,因此需要人为构建特征。另外,LR需要将特征离散化、归一化。

GBDT

GBDT [ 3 ] ^{[3]} [3]是一种梯度提升决策树模型,其优点在于处理连续特征,可以自动选取不同特征进行组合,选取最优分裂特征与分裂点,得到特征重要度排序,并且不需要进行归一化处理。
由于在ctr估计中,大部分特征为离散特征,因此若使用GBDT则需要通过embedding等方式将其处理成连续特征。GBDT的树模型结构特点决定了其不利于挖掘长尾特征,并且相对于DNN来说,其特征组合能力有限。

FM与FFM

FM(Factorization Machine)最早被提出旨在解决稀疏数据下的特征组合问题 [ 5 ] ^{[5]} [5]。对于categorical类型特征,需要经过独热编码(One-Hot Encoding)转换成数值型特征。One-Hot编码后,特征呈高维稀疏。若直接进行二阶组合,其表达式为
y ( x ) = w 0 + ∑ i = 1 n w i x i + ∑ i = 1 n ∑ j = i + 1 n w i j x i x j y(x)=w_0+\sum^n_{i=1}w_ix_i+\sum^n_{i=1}\sum^n_{j=i+1}w_{ij}x_ix_j y(x)=w0+i=1nwixi+i=1nj=i+1nwijxixj
此时,二阶特征参数有 n ( n − 1 ) 2 \frac{n(n-1)}{2} 2n(n1)个,且两两之间相互独立,由于特征的高度稀疏,许多 w i j w_{ij} wij对应的特征值大部分都是0,难以实现较好的训练,严重影响模型预测结果。
为解决大量参数问题,FM算法采用了矩阵分解的思路。在这里首先介绍一下协同过滤中的矩阵分解。再推荐系统中,用户与商品的关系矩阵为一高维稀疏矩阵。为对矩阵进行分解,考虑奇异值分解(SVD)。定义方阵中特征值与特征向量为
A x = λ x Ax=\lambda x Ax=λx
则A可特征分解为
A = W Σ W − 1 A=W\Sigma W^{-1} A=WΣW1
其中 W W W为特征向量组合成的 n n n维方阵, ∑ \sum 为对角元素为特征值的对角矩阵。当 A A A非方阵时,定义SVD为
A = U Σ V T A=U\Sigma V^T A=UΣVT
其中 U U U m × m m\times m m×m, Σ \Sigma Σ m × n m\times n m×n, V V V n × n n\times n n×n。在推荐系统中,用户物品关系矩阵 M M M可分解为
M m × n = U m × k Σ k × k V k × n T M_{m\times n}=U_{m\times k}\Sigma _{k\times k}V_{k\times n}^T Mm×n=Um×k

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值