fm算法详解_FM算法解析

FM算法常用于点击率预估,针对稀疏数据场景,具有线性计算复杂度。它通过矩阵分解降低参数训练难度,模型表达能力强于LR,适用于特征组合。FM的核心思想是将二次项参数表示为特征的隐向量内积,解决了数据稀疏性问题。
摘要由CSDN通过智能技术生成

应用场景:

点击预估。

准确的估计

equation?tex=ctr%2C+cvr 对于提高流量的价值,增加广告收入有重要的指导作用。业界常用的方法有人工特征工程 + LR(Logistic Regression)、GBDT(Gradient Boosting Decision Tree) + LR[1][2][3]、FM(Factorization Machine)[2][7]和FFM(Field-aware Factorization Machine)[9]模型。在这些模型中,FM和FFM近年来表现突出,分别在由Criteo和Avazu举办的CTR预测竞赛中夺得冠军[4][5]。

在进行CTR预估时,除了单特征外,往往要对特征进行组合。对于特征组合来说,业界现在通用的做法主要有两大类:FM系列与Tree系列。今天来讲讲FM算法。

目的:

旨在解决稀疏数据下的特征组合问题。

优势:高度稀疏数据场景;

具有线性的计算复杂度。

FM原理(个人理解属于:个性化特征)为什么进行特征组合?

下面以一个示例引入FM模型。假设一个广告分类的问题,根据用户和广告位相关的特征,预测用户是否点击了广告。源数据如下:

“Clicked?”是label,Country、Day、Ad_type是特征。由于三种特征都是categorical类型的,需要经过独热编码(One-Hot Encoding)转换成数值型特征。

由上表可以看出,经过One-Hot编码之后,大部分样本数据特征是比较稀疏的。上面的样例中,每个样本有7维特征,但平均仅有3维特征具有非零值。实际上,这种情况并不是此例独有的,在真实应用场景中这种情况普遍存在。例如,CTR/CVR预测时,用户的性别、职业、教育水平、品类偏好,商品的品类等,经过One-Hot编码转换后都会导致样本数据的稀疏性。特别是商品品类这种类型的特征,如商品的末级品类约有550个,采用One-Hot编码生成550个数值特征,但每个样本的这550个特征,有且仅有一个是有效的(非零)。由此可见,数据稀疏性是实际问题中不可避免的挑战。

One-Hot编码的另一个特点就是导致特征空间大。例如,商品品类有550维特征,一个categorical特征转换为550维数值特征,特征空间剧增。

同时通过观察大量的样本数据可以发现,某些特征经过关联之后,与label之间的相关性就会提高。例如,“USA”与“Thanksgiving”、“China”与“Chinese New Year”这样的关联特征,对用户的点击有着正向的影响。换句话说:来自“China”的用户很可能会在“Chinese New Year”有大量的浏览、购买行为;而在“Thanksgiving”却不会有特别的消费行为。这种关联特征与label的正向相关性在实际问题中是普遍存在的,如,,品类偏好等。因此,引入两个特征的组合是非常有意义的。如何组合?

多项式模型是包含特征组合的最直观的模型。在多项式模型中,特征

equation?tex=x_i

equation?tex=x_j 的组合采用

equation?tex=x_ix_j 表示,即

equation?tex=x_i

equation?tex=x_j都非零时,组合特征

equation?tex=x_ix_j 才有意义。从对比的角度,本文只讨论二阶多项式模型。模型的表达式如下:

equation?tex=y%28X%29%3D%5Comega_0%2B%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%7B%5Comega_ix_i%7D%2B%5Csum_%7Bi%3D1%7D%5E%7Bn-1%7D%7B%5Csum_%7Bj%3Di%2B1%7D%5E%7Bn%7D%7B%5Comega_%7Bij%7Dx_ix_j%7D%7D (1)

其中,

equation?tex=n 代表样本的特征数量,

equation?tex=x_i是第

equation?tex=i 个特征的值,

equation?tex=%5Comega_0%2C+%5Comega_i%2C+%5Comega_%7Bij%7D 是模型参数。

从公式来看,模型前半部分就是普通的LR线性组合,后半部分的交叉项即:特征的组合。单从模型表达能力上来看,FM的表达能力是强于LR的,至少不会比LR弱,当交叉项参数全为0时退化为普通的LR模型。

从公式(1)可以看出,组合特征的参数一共有

equation?tex=%5Cfrac%7Bn%28n-1%29%7D%7B2%7D 个,任意两个参数都是独立的。然而,在数据稀疏性普遍存在的实际应用场景中,二次项参数的训练是很困难的。其原因是:每个参数

equation?tex=+%5Comega_%7Bij%7D 的训练需要大量

equation?tex=x_i

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值