推荐系统学习笔记之四 Factorization Machines 因子分解机 + Field-aware Factorization Machine(FFM) 场感知分解机

最新推荐文章于 2024-07-12 17:35:14 发布

小鹅鹅

最新推荐文章于 2024-07-12 17:35:14 发布

阅读量1.2w

点赞数 7

分类专栏：推荐系统推荐系统算法入门

本文链接：https://blog.csdn.net/asd136912/article/details/78318563

版权

推荐系统算法入门同时被 2 个专栏收录

7 篇文章 5 订阅

订阅专栏

推荐系统

5 篇文章 2 订阅

订阅专栏

前言

Factorization Machines(FM) 因子分解机是Steffen Rendle于2010年提出，而Field-aware Factorization Machine (FFM) 场感知分解机最初的概念来自于Yu-Chin Juan与其比赛队员，它们借鉴了辣子Michael Jahrer的论文中field概念，提出了FM的升级版模型。
FM的paper中主要对比对象是SVM支持向量机，与SVM相比，有如下几个优势

FM可以实现对于输入数据是非常稀疏（比如自动推荐系统），而SVM会效果很差，因为训出的SVM模型会面临较高的bias。
FMs拥有线性的复杂度, 可以通过 primal 来优化而不依赖于像SVM的支持向量机。

在推荐系统和计算广告领域，点击率CTR（click-through rate）和转化率CVR（conversion rate）是衡量广告流量的两个关键指标。准确的估计CTR、CVR对于提高流量的价值，增加广告收入有重要的指导作用。FM和FFM近年来表现突出，分别在由Criteo和Avazu举办的CTR预测竞赛中夺得冠军。

Factorization Machines 因子分解机

假如在某个电影播放网站有这么一组实时数据：

MoviesClass	Actor	Director	MoviesIsPlay?
Action	A	AA	1
Romantic	B	BB	0
Action	A	BB	1

其中MoviesIsPlay?是label，MoviesClass 、UserType、Actor、Director是特征。以上这四种特征都是categorical类型的，需要经过独热编码（One-Hot Encoding）转换成数值型特征。

MoviesClass = Action	MoviesClass = Romantic	Actor = A	Actor = B	Director = AA	Director = BB	MoviesIsPlay = 1	MoviesIsPlay = 0
1	0	1	0	1	0	1	0
0	1	0	1	0	1	0	1
1	0	1	0	0	1	1	0

从该独热编码表可以看出矩阵许多值都为0，数据十分稀疏，而且会导致数据维度增大，数量级从 $n$ 增大到 $n^2$ 。

而我们的目的是从该矩阵中获取到特征的某些关联，比如MovieClass=action 与 actor=A 关联比较大，电影播放量可很客观，从而对用户进行推荐。

先从线性回归和多项式回归开始建模，这里我们以二阶多项式模型（degree = 2时）为例：
$x_ix_j$ 表示特征xi和xj的组合，当 $x_i$ 和 $x_j$ 都非零时，组合特征 $x_ix_j$ 才有意义。

y^(x) : = w 0 + \sum i = 1 n w i x i                线 性 回 归 + \sum i = 1 n \sum j = i + 1 n w i j x i x j                  交 叉 项 （ 组 合 特 征 ）

$\hat{y}(x) := \underbrace {w_0 + \sum_{i=1}^{n} w_i x_i }_{\text{线性回归}} + \underbrace {\sum_{i=1}^{n} \sum_{j=i+1}^{n} w_{ij} x_i x_j}_{\text{交叉项（组合特征）}}$
其中，n 代表样本的特征数量，

xi $x_i$ 是第 i 个特征的值，

w0、wi、wij $w_0、w_i、w_{ij}$ 是模型参数。

从此公式可以看出组合特征一共有n(n-1)/2个，如果特征n上百个，组合特征上万个，就是任意两个 $w_{ij}$ 相互独立，样本数据很稀疏， $x_ix_j$ 为非零的项会非常的少，导致训练样本的不足，很容易导致参数 $w_{ij}$ 不准确，最终将严重影响模型的性能和稳定性。

那么如何解决这些问题呢？上一篇博客的矩阵分解提供了思路。在一个rating矩阵可以分解为user矩阵和item矩阵，每个user和item都可以采用一个隐向量表示，两个向量的点积就是矩阵中user对item的打分。

类似地，所有二次项参数 $w_{ij}$ 可以组成一个对称阵 $W$ ，可以分解为 $\mathbf{W} = \mathbf{V}^T \mathbf{V}$ ， $V$ 的第 j 列便是第 j 维特征的隐向量，也就是说每个参数 $w_{ij}=⟨v_i,v_j⟩$ ，这就是FM模型的核心思想（不讨论高阶形式）。所以可以得到：

$y^(x) : = w 0 + \sum i = 1 n w i x i + \sum i = 1 n \sum j = i + 1 n ⟨ v i, v j ⟩ x i x j$ $\hat{y}(\mathbf{x}) := w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j$
其中<>表示两个向量的点积 $⟨ v i, v j ⟩ : = \sum f = 1 k v i, f \cdot v j, f$ $\langle \mathbf{v}_i, \mathbf{v}_j \rangle := \sum_{f=1}^{k} v_{i,f} \cdot v_{j,f}$
直观上看，FM的复杂度是 $O(kn^2)$ 。但是，通过下列等式，FM的二次项可以化简，其复杂度可以优化到 $O(kn)$ 。由此可见，FM可以在线性时间对新样本作出预测。
$\sum i = 1 n \sum j = i + 1 n ⟨ v i, v j ⟩ x i x j = 1 2 \sum f = 1 k ⎛ ⎝ (\sum i = 1 n v i, f x i) 2 - \sum i = 1 n v 2 i, f x 2 i ⎞ ⎠$ $\sum_{i=1}^n \sum_{j=i+1}^n \langle \mathbf{v}_i, \mathbf{v}_j \rangle x_i x_j = \frac{1}{2} \sum_{f=1}^k \left(\left( \sum_{i=1}^n v_{i, f} x_i \right)^2 - \sum_{i=1}^n v_{i, f}^2 x_i^2 \right)$
下面给出详细证明过程：

$= = = = \sum i = 1 n \sum j = i + 1 n ⟨ v i, v j ⟩ x i x j (1) 1 2 \sum i = 1 n \sum j = 1 n ⟨ v i, v j ⟩ x i x j - 1 2 \sum i = 1 n ⟨ v i, v i ⟩ x i x i (2) 1 2 ⎛ ⎝ \sum i = 1 n \sum j = 1 n \sum f = 1 k v i, f v j, f x i x j - \sum i = 1 n \sum f = 1 k v i, f v i, f x i x i ⎞ ⎠ (3) 1 2 \sum f = 1 k ⎧ ⎩ ⎪ ⎪ ⎪ ⎪ ⎪ (\sum i = 1 n v i, f x i) \cdot ⎛ ⎝ \sum j = 1 n v j, f x j ⎞ ⎠ - \sum i = 1 n v 2 i, f x 2 i ⎫ ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ (4) 1 2 \sum f = 1 k ⎧ ⎩ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ (\sum i = 1 n v i, f x i) 2 - \sum i = 1 n v 2 i, f x 2 i ⎫ ⎭ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ (5)$ $\begin{align} & \sum_{i=1}^{n} \sum_{j=i+1}^{n} {\langle \mathbf{v}_i, \mathbf{v}_j \rangle} x_i x_j \qquad\qquad\qquad\qquad\qquad\qquad(1)\\ = & \frac{1}{2} \sum_{i=1}^{n} \sum_{j=1}^{n} {\langle \mathbf{v}_i, \mathbf{v}_j \rangle} x_i x_j - \frac{1}{2} \sum_{i=1}^{n} {\langle \mathbf{v}_i, \mathbf{v}_i \rangle} x_i x_i \qquad\qquad\;\;(2)\\ = & \frac{1}{2} \left(\sum_{i=1}^{n} \sum_{j=1}^{n} \sum_{f=1}^{k} v_{i,f} v_{j,f} x_i x_j - \sum_{i=1}^{n} \sum_{f=1}^{k} v_{i,f} v_{i,f} x_i x_i \right) \qquad\,(3) \\ = & \frac{1}{2} \sum_{f=1}^{k} {\left \lgroup \left(\sum_{i=1}^{n} v_{i,f} x_i \right) \cdot \left(\sum_{j=1}^{n} v_{j,f} x_j \right) - \sum_{i=1}^{n} v_{i,f}^2 x_i^2 \right \rgroup} \quad\;\;\,(4) \\ = & \frac{1}{2} \sum_{f=1}^{k} {\left \lgroup \left(\sum_{i=1}^{n} v_{i,f} x_i \right)^2 - \sum_{i=1}^{n} v_{i,f}^2 x_i^2\right \rgroup} \qquad\qquad\qquad\;\;(5) \end{align}$
其中第（1）步到第（2）步，这里用AA表示系数矩阵VV的上三角元素，BB表示对角线上的交叉项系数。由于系数矩阵VV是一个对称阵，所以下三角与上三角相等，有下式成立：
$A = 1 2 (2 A + B) - 1 2 B . A = \sum i = 1 n \sum j = i + 1 n ⟨ v i, v j ⟩ x i x j - - - - - - - - - - - - - - - - - - -; B = 1 2 \sum i = 1 n ⟨ v i, v i ⟩ x i x i - - - - - - - - - - - - - - - - -$ $A = \frac{1}{2} (2A+B) - \frac{1}{2} B. \quad \underline{ A=\sum_{i=1}^{n} \sum_{j=i+1}^{n} {\langle \mathbf{v}_i, \mathbf{v}_j \rangle} x_i x_j } ; \quad \underline{ B = \frac{1}{2} \sum_{i=1}^{n} {\langle \mathbf{v}_i, \mathbf{v}_i \rangle} x_i x_i }$

之后采用随机梯度下降SGD（Stochastic Gradient Descent）训练模型参数。那么，模型各个参数的梯度如下:

$\partial \partial θ y (x) = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 1, x i x i \sum j = 1 n v j, f x j - v i, f x 2 i, if θ is w 0 (常数项) if θ is w i (线性项) if θ is v i, f (交叉项)$ $\frac{\partial}{\partial \theta} y(\mathbf{x}) = \left \{ \begin{array}{ll} 1, & \text{if}\; \theta\; \text{is}\; w_0 \qquad \text{(常数项)} \\ x_i & \text{if}\; \theta\; \text{is}\; w_i \;\qquad \text{(线性项)} \\ x_i \sum_{j=1}^{n} v_{j,f} x_j - v_{i,f} x_i^2, & \text{if}\; \theta\; \text{is}\; v_{i,f} \qquad \text{(交叉项)} \end{array} \right.$
其中， $v_{j,f}$ 是隐向量 $v_j$ 的第 f 个元素。由于 $\sum_{j=1}^n v_{j, f} x_j$ 只与 f 有关，而与 i 无关，在每次迭代过程中，只需计算一次所有 f 的 $\sum_{j=1}^n v_{j, f} x_j$ 就能够方便地得到所有 $v_{i,f}$ 的梯度。因此，FM参数训练的复杂度也是 O(kn)。

FM总结

首先是为什么使用向量的点积可以解决以上问题呢？

参数的数量大幅度缩减，从n×(n−1)/2降低到nk
隐向量的点积可以表示原本两个毫无相关的参数之间的关系
而稀疏数据下学习不充分的问题也能得到充分解决。比如原本的多项式回归的参数 $w_{12}$ 的学习只能依赖于特征 $x_1$ 和 $x_2$ ；而对参数 $⟨v_1,v_2⟩$ 而言就完全不一样了，它由 $v_1$ 和 $v_2$ 组成。而对于每个向量可以通过多个交叉组合特征学习得到，比如可以由 $x_1x_2,x_1x_3,..$ 学习获得，这样可供学习的非零样本就大大增加了。

其次FM与矩阵分解MF与SVM有什么差别呢？

FM是一种比较灵活的模型，通过合适的特征变换方式，FM可以模拟二阶多项式核的SVM模型、MF模型、SVD++模型等。
相比SVM的二阶多项式核而言，FM在样本稀疏的情况下是有优势的；而且，FM的训练/预测复杂度是线性的，而二项多项式核SVM需要计算核矩阵，核矩阵复杂度就是N平方。
相比MF而言，我们把MF中每一项的rating分改写为 $r_{ui} \sim \beta_u + \gamma_i + x_u^T y_i$ ，从此公式中可以看出，这相当于只有两类特征 $\beta$ 和 $\gamma$ 的FM模型。对于FM而言，我们可以加任意多的特征，比如user的历史购买平均值，item的历史购买平均值等，但是MF只能局限在两类特征。SVD++与MF类似，在特征的扩展性上都不如FM。

Field-aware Factorization Machine(FFM) 场感知分解机

场感知说白了可以理解为分类。通过引入field的概念，FFM把相同性质的特征归于同一个field。比如， “MovieClass = romantic”、“MovieClass = action”这2个特征值都是代表电影分类的，可以放到同一个field中。简单来说，同一个类别的特征经过One-Hot编码生成的数值特征都可以放到同一个field。在FFM中，每一维特征 $x_i$ ，针对其它特征的每一种field $f_j$ ，都会学习一个隐向量 $v_{i,f_j}$ 。因此，隐向量不仅与特征相关，也与field相关。也就是说，“MovieClass”这个特征与“UserRate”特征和“PlayTimes”特征进行关联的时候使用不同的隐向量，也是FFM中“field-aware”的由来。
通过修改FM的公式，我们可以得出：

$y^(x) : = w 0 + \sum i = 1 n w i x i + \sum i = 1 n \sum j = i + 1 n ⟨ v i, f j, v j, f i ⟩ x i x j$ $\hat{y}(\mathbf{x}) := w_0 + \sum_{i=1}^{n} w_i x_i + \sum_{i=1}^{n} \sum_{j=i+1}^{n} \langle \mathbf{v}_{i,\,f_j}, \mathbf{v}_{j,\,f_i} \rangle x_i x_j$
其中， $f_j$ 是第j个特征所属的field。如果隐向量的长度为k，那么FFM的二交叉项参数就有 $nfk$ 个，远多于FM模型的 $nk$ 个。此外，由于隐向量与field相关，FFM的交叉项并不能够像FM那样做化简，其预测复杂度为 $O(kn^2)$ 。

为了使用FFM方法，所有的特征必须转换成“field_id:feat_id:value”格式，field_id代表特征所属field的编号，feat_id是特征编号，value是特征的值。数值型的特征比较容易处理，只需分配单独的field编号，如用户评论得分、商品的历史CTR/CVR等。categorical特征需要经过One-Hot编码成数值型，编码产生的所有特征同属于一个field，而特征的值只能是0或1，如用户的性别、年龄段，商品的品类id等。
除此之外，还有第三类特征，如用户浏览/购买品类，有多个品类id且用一个数值衡量用户浏览或购买每个品类商品的数量。这类特征按照categorical特征处理，不同的只是特征的值不是0或1，而是代表用户浏览或购买数量的数值。按前述方法得到field_id之后，再对转换后特征顺序编号，得到feat_id，特征的值也可以按照之前的方法获得。

参考文献

https://tech.meituan.com/deep-understanding-of-ffm-principles-and-practices.html
http://www.52caml.com/head_first_ml/ml-chapter9-factorization-family/
http://www.csie.ntu.edu.tw/~r01922136/slides/ffm.pdf
https://github.com/guestwalk/libffm FFM C++实现

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

小鹅鹅

关注关注

7
点赞

踩

39

收藏

觉得还不错? 一键收藏

1
评论

复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

推荐系统笔记7-Field-aware Factorization Machines for CTR Prediction

年少_当自强的博客

02-05 1350

本文介绍Field-aware Factorization Machines for CTR Prediction，简称为FFM，其原文Paper传送门。摘要计算广告中CTR预估有着很重要的作用，其中二阶映射的FM常被使用，但提出的FFM在比赛中优于FM，因此引出FFM；一、介绍通常用LR处理分类问题，其模型是用来解决如下最优化问题： min⁡wλ2∥w∥22+∑i=1mlog⁡(1+ex...

Field-aware Factorization Machine - FFM（领域感知的因子分解机）

不学无术的小镇做题家

06-29 445

“域”概念的提出本篇的模型是FFM，全称是Field-aware Factorization Machine。作者认为，FM中虽然对特征做了高阶（一般是二阶）交叉，但是有一个弊端：在实际场景中，特征的领域(Field)很可能不同，比如性别、品牌、国籍等，向量在不同域的表示应该不一样才对，FM只用一个向量Embedding来表示特征，也就意味着在与其他特征做交叉的时候，使用的是同一个向量，这显然是不合理的。所以，FFM引入了域(Field)的概念，做法就是每个特征不再使用单一向量表示，而是fff个向量，这

1 条评论您还未登录，请先登录后发表或查看评论

【推荐系统】FM因子分解机（上）

littlemichelle

03-31 709

推荐场景下的排序模型参考： 推荐系统召回四模型之：全能的FM模型 - 张俊林的文章 - 知乎 推荐系统遇上深度学习(一)--FM模型理论和实践第一个问题：我们知道在个性化推荐系统里，第一个环节一般是召回阶段，而召回阶段工业界目前常规的做法是多路召回，每一路召回可能采取一个不同的策略。那么打破常规的思考之一是：是否我们能够使用一个统一的模型，将多路召回改造成单模型单路召...

FM模型（Factorization Machine，因子分解机）解析及举例

最新发布

weixin_41570231的博客

07-12 1410

FM模型通过分解特征矩阵捕捉特征间的二阶交互，适用于推荐系统、分类和回归任务，能有效处理高维稀疏数据。

【推荐系统】因子分解机 (Factorization Machine)

Robin_S

05-21 1098

FFM(Field-aware Factorization Machines)模型

很吵请安静

04-22 512

提出动机 FFM模型是在FM模型的基础上提出的，FM的假设函数如下所示： y^(x):=w0+∑i=1nwixi+∑i=1n∑j=i+1n⟨vi,vj⟩xixj\hat{y}(\mathbf{x}):=w_{0}+\sum_{i=1}^{n} w_{i} x_{i}+\sum_{i=1}^{n} \sum_{j=i+1}^{n}\left\langle\mathbf{v}_{i}, \mathbf...

推荐系统（三）Factorization Machines（FM）

天泽28的专栏

10-19 5835

推荐系统（三）Factorization Machines（FM） 推荐系统系列博客： 推荐系统（一）推荐系统整体概览 推荐系统（二）GBDT+LR模型按照发表年份，这篇博客应该在GBDT+LR之前写的，但因为FM相比较GBDT+LR的内容稍微多些，所以就后写了这篇博客。言归正传，FM是推荐系统领域大佬rendle于2010年发表在ICDM上的论文，是一篇非常非常有影响力的论文，启发了此后10年学术界大量的工作，直接的改进就有引入神经网络的NFM，引入attention的AFM等（关于NFM和AFM这两个

FFM（Field-aware Factorization Machines）

zhao254014的博客

08-18 4481

相比于FM模型， FFM模型引入了特征域感知(filed-aware) 这个概念，使得模型的表达能力更强。

（推荐系统）FFM算法：Field-aware Factorization Machines for CTR Prediction

qq_33397016的博客

05-14 584

摘要 FFM算法由Yuchin Juan等人于2016AVM大会上提出。基于FM算法提取样本交叉信息的思想，FFM引进了场（field）的概念，提出了一种粒度更细的样本交叉信息提取方法。实验结果表明，与传统的POLY2与FM等算法对比，FFM更能有效地处理稀疏数据，同时获取较高的推荐精度。 1 FFM算法模型作为FM的改进版本,FFM通过引入field信息来更细致地表征样本与向量的关系。本小节将简单地对FFM模型原理，求解方法作一个梳理。 1.1 引进filed信息场信息即特征所属的一个类别。以论文

02-《Field-aware Factorization Machines for CTR Prediction》

weixin_37562062的博客

03-28 247

1. 什么是FFM Field-aware Factorization Machines（简称FFM），是由YuChin Juan与其比赛队员提出，是FM的一种变式。在Click-through rate (CTR) 预测中，FFM的效果好于二阶多项式（Poly2）和FM模型。针对CTR预测，学习特征组合的影响是十分重要的，而普通的线性模型（y=wx）是很难学习特征组合项的参数。此前，针...

Factorization Machine

o0Helloworld0o的博客

08-17 377

文章来自：深入FFM原理与实践【动机】特征的交叉是有用的，于是想到构造二次项特征，对应着如下的多项式模型 y(x)=w0+∑i=1nwixi+∑i=1n∑j=i+1nwijxixjy(x)=w0+∑i=1nwixi+∑i=1n∑j=i+1nwijxixj\begin{aligned}y(\mathbf{x})=w_0+\sum\limits_{i=1}^{n}w_ix_i+\sum\li...

论文解读：Field-aware Factorization Machines for CTR Prediction(FFMs)

weixin_44441131的博客

01-27 515

文章目录摘要1. Introduction2. POLY2 AND FM3. FFM3.1 Solving the Optimization Problem3.2 Parallelization on Shared-memory Systems3.3 Adding Field Information4. Experiments4.1 Experiments settings4.2 Impact of Parameters4.3 Early Stopping4.4 Speedup FFM模型时FM模型的变

CTR预估论文精读(四)--Field-aware Factorization Machines for CTR Prediction

Dby_freedom的博客

12-08 1986

Field-aware Factorization Machines for CTR Prediction 1. FM FM的具体详情可以参考之前的论文总结Factorization Machines 论文阅读总结 1.1 FM是什么将矩阵 W=wi,jW={w_{i,j}}W=wi,j 矩阵（这是一个对称方阵）分解成 W=VTVW=V^TVW=VTV 的形式，其中 V=(v1,v2,⋯,vd...

因子分解机Factorization Machine

chaojianmo的博客

09-17 1061

Factorization Machine是对Logistic Regression算法的扩展，是一种基于矩阵分解的机器学习算法。由于逻辑回归只能处理线性可分的二分类算法，对于非线性可分的二分类问题，基本的逻辑回归算法不能很好的进行分类。目前，被广泛的应用于广告预估模型中，是一种不错的CTR预估模型，与Logistic Regression相比, FM能够把握一些组合的高阶特征，因此拥有更强的...

《Field-aware Factorization Machines for CTR Prediction》FFM模型整理及python代码

十三

03-19 1465

1 原文（点击下载） 2 FFM模型 FFM（Field-aware Factorization Machine）最初的概念来自Yu-Chin Juan（阮毓钦，毕业于中国台湾大学，现在美国Criteo工作）与其比赛队员，是他们借鉴了来自Michael Jahrer的论文[14]中的field概念提出了FM的升级版模型。通过引入field的概念，FFM把相同性质的特征归于同一个fi...

（一）因式分解机（Factorization Machine，FM）原理及实践

anshuai_aw1的博客

11-06 1万+

因子分解机（Factorization Machine），是由Konstanz大学（德国康斯坦茨大学）Steffen Rendle（现任职于Google）于2010年最早提出的，旨在解决大规模稀疏数据下的特征组合问题。不久后，FM的升级版模型场感知分解机（Field-aware Factorization Machine，简称FFM）由来自Yu-Chin Juan（阮毓钦，毕业于中国台湾大学，现...

推荐算法之FM（因子分解机）与FFM

qq_38375203的博客

05-05 1705

前言关于FM和FFM的知识有很多，比如召回层或者排序层亦或者是多路召回、统一召回。这些内容以后也会写相应的文章来进行详细的讲解，在这篇文章中只是将这两种算法的基本原理以及公式讲清楚就足够了。一、POLY2模型在进行FM以及FFM模型讲解之前，先讲解一下POLY2模型。前面的文章讲过逻辑回归，虽然这是一个非常优秀的算法，但是仅仅依靠单一特征来进行判定的情况下，就会造成信息损失的问题，所以我们还需要进行多维度特征交叉。针对特征交叉问题POLY2模型进行特征的暴力组合来解决这类问题。数学形式如下所示：

推荐系统模型发展简史

WitsMakeMen的专栏

05-08 244

互联网出现不久，推荐系统就诞生了，相关技术在学术界和工业界得到了广泛的研究和应用。目前，推荐系统已经成为最成功的网络应用之一，通过推荐不同种类的内容来为数十亿人服务，包括新闻资讯、视频、电子商务产品、音乐、电影、书籍、游戏、朋友、工作等。这些成功的案例证明，推荐系统可以将大数据转移成高价值。本文从两个方面简要回顾了推荐系统的发展历程：（1）推荐模型，（2）典型推荐系统的架构。之前我们整理了近30年关于推荐模型的发展历史可参考一文尽览推荐系统模型演变史(文末可下载)，另外关于中国推荐系统发展历史可参考那些用推

简单易学的机器学习算法——因子分解机(Factorization Machine)

热门推荐

null的专栏

05-06 6万+

一、因子分解机FM的模型 因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。1、因子分解机FM的优势对于因子分解机FM来说，最大的特点是对于稀疏的数据具有很好的学习能力。现实中稀疏的数据很多，例如作者所举的推荐系统的例子便是一个很直观的具有稀疏特点的例子。2、因子分解机FM的模型

CTR预估算法探索：从Logistic Regression到Field-aware FM

本文主要介绍了几种常见的预估算法，包括JCTR架构、Logistic Regression、POLY2、Factorization Machine (FM)以及Field-aware FM。首先，JCTR架构是点击率预估系统的一种基础框架，它分为离线和在线两个部分。离线...