deepFM详解之FM

最新推荐文章于 2024-10-16 23:04:57 发布

数道难

最新推荐文章于 2024-10-16 23:04:57 发布

阅读量1.3k

点赞数 1

分类专栏：机器学习 TensorFlow

本文链接：https://blog.csdn.net/u013303361/article/details/103846174

版权

机器学习同时被 2 个专栏收录

18 篇文章

订阅专栏

TensorFlow

6 篇文章

订阅专栏

主体转自：https://blog.csdn.net/baymax_007/article/details/83931698，豆沙绿部分为个人认为需注意修改的。

背景：

相关的文章网上一传十十传百且质量良莠不齐，对于初学者晦涩难懂；我在前人的总结上加入了自己的理解稍作增删修改，以作为学习记录，如有疏漏，敬请指正。

因子分解机（Factorization Machine, FM）是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法，其主要用于解决数据稀疏的业务场景（如推荐业务），特征怎样组合的问题。

paper指出FM与SVM相比，有如下优势：

FM可以实现非常稀疏数据参数估计，而SVM会效果很差，因为训出的SVM模型会面临较高的bias；
FMs拥有线性的复杂度, 可以通过 primal 来优化而不依赖于像SVM的支持向量机；

一、FM原理
1. 为什么进行特征组合？
在feed流推荐场景中，根据user和item基础信息（clicked：是否点击；userId：用户ID；userGender：用户性别；itemTag：物品类别），来预测用户是否对物品感兴趣（点击与否，二分类问题）。源数据如下：

由于userGender和itemTag特征都是categorical类型的，需要经过独热编码（One-Hot Encoding）转换成数值型特征。

经过One-Hot编码之后，大部分样本数据特征是比较稀疏的。上面的样例中，每个样本有5维特征，但平均仅有3维特征具有非零值。实际上，这种情况并不是此例独有的，在真实应用场景中这种情况普遍存在。例如，CTR/CVR预测时，用户的性别、职业、教育水平、品类偏好，商品的品类等，经过One-Hot编码转换后都会导致样本数据的稀疏性。特别是商品品类这种类型的特征，如商品的三级品类约有1000个，采用One-Hot编码生成1000个数值特征，但每个样本的这1000个特征，有且仅有一个是有效的（非零）。由此可见，数据稀疏性是实际问题中不可避免的挑战。

One-Hot编码的另一个特点就是导致特征空间大。例如，商品三级类目有1000维特征，一个categorical特征转换为1000维数值特征，特征空间剧增。

同时通过观察大量的样本数据可以发现，某些特征经过关联之后，与label之间的相关性就会提高。例如，“男性”与“篮球”、“女性”与“化妆品”这样的关联特征，对用户的点击有着正向的影响。换句话说：男性用户很可能会在篮球有大量的浏览行为；而在化妆品却不会有。这种关联特征与label的正向相关性在实际问题中是普遍存在的。因此，引入两个特征的组合是非常有意义的。

2. 如何组合特征？
多项式模型是包含特征组合的最直观的模型。在多项式模型中，特征和的组合采用表示，即和都非零时，组合特征才有意义。从对比的角度，本文只讨论二阶多项式模型。模型的表达式如下：

其中， n代表样本的特征数量，xi是第i个特征的值（one-hot 01 向量值），w0、wi和wij是模型参数。

从公式来看，模型前半部分就是普通的LR线性组合，后半部分的交叉项即特征的组合。单从模型表达能力上来看，FM的表达能力是强于LR的，至少不会比LR弱，当交叉项参数全为0时退化为普通的LR模型。

从上面公式可以看出，组合特征的参数一共有n(n-1)/2个，任意两个参数都是独立的。然而，在数据稀疏性普遍存在的实际应用场景中，二次项参数的训练是很困难的。其原因是：每个参数的训练需要大量和都非零的样本；由于样本数据本来就比较稀疏，满足xi和xj都非零的样本将会非常少。训练样本的不足，很容易导致wij参数不准确，最终将严重影响模型的性能。

3. 如何求解
记：