LR-Poly2-FM-FFM

最新推荐文章于 2024-06-08 15:07:29 发布

qq_33761777

最新推荐文章于 2024-06-08 15:07:29 发布

阅读量363

点赞数 2

本文链接：https://blog.csdn.net/qq_33761777/article/details/109021335

版权

推荐搜索相关论文基础篇
1.结构上
LR:
LR认为最终的标签,例如CTR中点击与否是由我们的每个特征的线性作用决定的,这里面每个特征的贡献度不一样,所以我们希望学习得到每个特征其对应的贡献程度，此处我们用线性的方式学习，
$w_0 + \sum_{i}w_ix_i$
最终为了方便我们用下面对式子将我们对预测结果缩放到0-1之间的概率，
$\frac{1}{1+exp(-g(x))}$

Poly2:
LR对特征的交叉信息处理的非常差，
Poly2算法
$w_0 + \sum_{i}w_i x_i + \sum_{i}\sum_{j =i+1}w_{ij}x_ix_j$
我们发现Poly2和LR最大的不同之处出现在了最后一项,出现了特征的交叉,之前我们用 $w_ax_a + w_bx_b$ 来表示特征 $x_a$ 和 $x_b$ 的影响,现在我们用 $w_ax_a + w_bx_b+ w_{ab}x_{ab}$ 来表示两个特征的影响, 因为额外增加一个参数来表征特征之间的关系,所以Poly2的表达能力比LR好了很多,但是在推荐搜索等场景中,用户和商品的维度进行来交叉,而早期这些特征又是高维度稀疏的,这种交叉一下子就让我们的特征维度变大了很多(要学的参数也变大了),所以过拟合的概率大大增大,这些权重很难被学好

FM：
$w_0 + \sum_{i}w_i x_i + \sum_{i}\sum_{j = i+1}w_{ij}x_ix_j = w_0 + w_1^Tx + x^TW_2x$
上面我们提到了，上面的式子有一个非常大的问题,就是冗余度太大, 很多参数学习也不太好, 很容易过拟合,为了缓解这种问题,我们做如下的假设：

我们的矩阵W是低秩的,此时我们的矩阵就可以拆解为，
$W_2 = V^TV, V \in R^{k*d}$

其中 $d$ 为我们特征的维度,这样我们的学习参数就从之前的 $O(d^2)$ 降低为了 $O (d k)$ ,一般实践中我们将 $k$ 设置为100左右或者小于100,远远小于样本的特征维度 $d$ ,

$w_0 + \sum_{i}w_i x_i + \sum_{i}\sum_{j <i}<v_i,v_j>x_ix_j$

其中,

$w_0 \in R, w \in R^d, V \in R^{d * k}$

此时,我们便可以这么来理解我们的模型, 我们每个特征i都有一个向量 $v_i$ 来表示它的潜在因素(可以想象为化学组成),任何两个特征之间交叉都会带来一些"化学反应",这个反应的最终结果就是两个特征之间的内积。

FFM：
FM虽然比LR已经好了很多,同时还缓解了Poly2暴力枚举带来的计算问题，但对于特征之间的交叉影响的计算有些简单。
FFM的数学表示，

$w_0 + \sum_{i}w_i x_i + \sum_{i}\sum_{j <i}<v_{i,f_j},v_{j,f_i}>x_ix_j$

我们发现:

相较于Poly2的直接标量 $w_{ij}$ FFM两个特征之间的交叉关系是通过向量计算得到的,可以在特征稀疏的情况下,更好的捕捉特征之间的交叉关系(参考FM比Poly2好的两个案例解释);

相较于FM的向量计算,FFM的向量多了一个下标,如果我们认为所有的 $f_x$ 都是一样的,那么FFM就和FM是一样的了,所以FM可以看成是FFM的简化版本或者是特例,再换种理解,FFM相较于FM在特征交叉影响上看上去更为复杂一点,特征的交叉关系捕捉更加细致了；

那么这么做合理吗？我们直观的来理解一下:

FM计算的方式是：$ w_{ESPN} \dot w_{NIKE} + w_{ESPN} \dot w_{Male} + w_{NIKE} \dot w_{Male}$, 每个特征对应一个特征向量,直接计算点积;

FFM计算的方式是$ w_{ESPN,A} \dot w_{NIKE,P} + w_{ESPN,G} \dot w_{Male,P} + w_{NIKE,G} \dot w_{Male,A} $, 认为不同域特征之间的交叉是不一样的, 所以 E S P N 在碰到 A d v e r t i s e r 类时的交叉应当用向量$ w_{ESPN,A} $进行交叉, 遇到 G e n d e r 类的时候, 应当用向量$ w_{ESPN,G}$进行计算。

从上面的例子我们发现,FFM在特征的交互影响上的计算相较于FM更加合理,而且在很多情况下,域的分数不会非常多,所以相较于Poly2的算法,参数个数也不会非常多,所以很多实验中,FFM相比于FM和Poly2等方案都取得来非常好的效果.

四种方法的优缺点:
LR:
优点：思路简单训练快
缺点：忽略了特征之间的交叉关系，简单的线性表示不能很好地建模特征之间的交叉作用，学习不到特征间的交叉信息，需要人为构建大量的特征；对于类别型的特征处理很耗内存，因为对每个特征学习一个权重，为避免序号编码产生的大小关系问题，会使用onehot编码，对于公司上亿的用户和商品，这样的组合是十分耗费内存的。
Poly2:
优点：由于Poly2要学习的参数是远远高于LR的,所以表示能力是要大大好于LR,实践中结果比LR要好了很多;
缺点：
Poly2的随机交叉学习增加了学习成本，模型冗余度大大提升，交叉特征的存储成本也大大增加；也增加了模型过拟合的概率。
FM：
优点：
可以学到更多的特征之间的交叉关系,而且相较于Poly2,FM的学习参数要远远低于Poly2;
在数据集非常稀疏的时候,FM的效果经常好于Poly2。
缺点：
因为FM假设为低秩，用两个latent vector的点积表示两个特征之间的影响，限制了特征的交互关系的表示，特征的交叉关系可能比点积复杂。
FFM：
优点：相较于FM，特征之间的学习更加合理
计算时间和效果都很好
缺点：
FFM FM LR Poly2 对类别型特征的处理很好，对数值型特征的处理非常差，
只学习了二阶交叉特征，由于计算原因没有考虑高阶交叉，
如果对类别特征使用one hot 编码，会损失特征的关联信息。

NFM的数学表示为：

$y_{NFM} = w_0 + \sum_{i=1}^nw_ix_i + f(x)$ ,

回忆一下，如果 $\sum_{i=1}^n\sum_{j=i+1}^n v_i^Tv_j \dot x_ix_j$ ,就转变为了FM的数学式子,而在NFM中，此处为:

$f_{BI}(V_x) = \sum_{i=1}^n\sum_{j=i+1}^n x_iv_i \odot x_jv_j$ ,

我们发现和我们传统的Embedding有一些不同的地方,我们的embedding层是 $V_x = {x_iv_i}$ , 我们这边embedding( $v_i$ 为我们的embedding向量)之后了还对其做了rescale,乘上了 $x_i$ ,这是为了对实数值做处理使用的。

注意: 此处 $\odot$ 指的是element-wise的乘积，所以最终我们的输出是一个向量, 此处我们可以将上面的式子简化为:

$f_{BI}(V_x) = \frac{1}{2} \dot [(\sum_{i=1}^n x_i v_i)^2 - \sum_{i=1}^n(x_iv_i)^2 ]$ , 其中, $v^2 = v \odot v$

最终整个网络就可以表示为:

$y_{NFM} = w_0 + \sum_{i=1}^nw_ix_i + f(x) \rightarrow y_{NFM} = w_0 + \sum_{i=1}^nw_ix_i + h^T \sigma_L(W_L(...\sigma_1(W_1f_{BI}(V_x)+b_1) ...)+ b_L)$

1.Interaction Network: $X_{h,*}^k = \sum_{i=1}^{H_{k-1}} \sum_{j=1}^m W_{ij}^{k,h}(X_{i,*}^{k-1} \circ X_{j,*}^0)$ 其中 $W^{k,h} \in R^{H_{k-1 * m}}$ , $W^{k,h}$ 中每个元素的值可以认为是两个向量为Hadamard product的一个权重, $\circ$ 为Hadamard product,我们发现第 $k$ 层的向量变成了第k-1层的每个向量和第一层的每个embedding向量的Hadamard product的和，特征的交互此时变得非常明显，特征的交叉随着网络深度的增加而更深层次。

2.Compressed: “compressed" indicates that the k-th hidden layer compress the potential space of $H_{k−1} * m$ vectors down to $H_k$ vectors. $p_i^k = \sum_{j=1}^DX_{i,j}^k$ ,

其中 $\in [1, H_k]$ , 因此我们可以得到一个pooling向量 $p^k = [p_1^k, p_2^k, ... , p_{H_k}^k]$ , 对于第k个隐藏层,其长度为 $H_k$ ,所有的pooling向量在输入到最后的输出单元时会先进行拼接, $p^+ = [p^1, p^2, ..., p^T] \in R^{\sum_{i=1}^T H_i}$

xDeepFM的时间复杂度较高,原来的时间复杂度为 $O(mH^2DT)$ ,其中D为embedding的维度,T为层数,m为特征个数,H为层的节点的个数,而如果一个简单的DNN,相同的深度情况下,它的计算复杂度为 $O(mHD + H^2T)$ ,所以DeepFM的时间复杂度非常高;训练代价是非常大的; 和很多的NN一样,虽然xDeepFM通过人为设计网络的交叉,来控制网络的交叉(特征的交叉),这么做缓和了DNN随机的组合,但是是否达到我们的需求仍然是一个非常大的问好

qq_33761777

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
LR-Poly2-FM-FFM

推荐搜索相关论文基础篇1.结构上LR:LR认为最终的标签,例如CTR中点击与否是由我们的每个特征的线性作用决定的,这里面每个特征的贡献度不一样,所以我们希望学习得到每个特征其对应的贡献程度，此处我们用线性的方式学习，g(x)=w0+∑iwixig(x) = w_0 + \sum_{i}w_ix_ig(x)=w0+∑iwixi最终为了方便我们用下面对式子将我们对预测结果缩放到0-1之间的概率，y=11+exp(−g(x))y = \frac{1}{1+exp(-g(x))}y=1+exp(
复制链接

扫一扫