DeepFM解决的问题
FNN
缺点如下:
- FNN底层通过为FM预训练得到向量,预训练有两个缺点:
(1)FNN embedding矩阵的参数会受到预训练结果的影响
(2)预训练的引入使得模型的效率降低 - FNN只能学到高阶特征组合,学习不到低阶特征
PNN
无法学些到低阶特征(可以理解为输入直接过了若干层网络,只学习到了高阶组合)
wide&deep
- LR部分需要进行手动的特征的组合(原论文说LR部分输入的是原始的特征和二阶特征组合)
- deep和wide部分分别对特征做了不同的embedding,效率和效果较差
所以希望能提出一个模型可以解决上述三种模型的不足。
DeepFM
FM模型,可以学习到一阶特征和二阶特征,deep部分可以学习到高阶特征组合
总结
DeepFM模型结构
神经网络部分与因子分解机部分,分别负责低阶特征的提取和高阶特征的提取。这两部分共享同样的输入
对于输入的一条记录,同一个field 只有一个位置是1,那么在由输入得到dense vector的过程中,输入层只有一个神经元起作用,得到的dense vector其实就是输入层到embedding层该神经元相连的五条线的权重,即vi1,vi2,vi3,vi4,vi5。这五个值组合起来就是我们在FM中所提到的Vi。在FM部分和DNN部分,这一块是共享权重的,对同一个特征来说,得到的Vi是相同的。
FM部分的一些解释
- FM如何避免数据稀疏性造成的影响
- 公式推导
- code相关
concated_embeds_value = inputs # B x n x k
square_of_sum = tf.square(tf.reduce_sum(concated_embeds_value, axis=1, keepdims=True)) # B x 1 x k
sum_of_square = tf.reduce_sum(concated_embeds_value * concated_embeds_value, axis=1, keepdims=True) # B x1 xk
cross_term = square_of_sum - sum_of_square # B x 1 x k
cross_term = 0.5 * tf.reduce_sum(cross_term, axis=2, keepdims=False) # B x 1
每个xi是类别变量的onehot后的一维,代码里直接对onehot取对应的权重 enbedding矩阵 取出为1位置的的时候的向量