FinalMLP笔记_finalmlp推荐模型-CSDN博客

本文链接：https://blog.csdn.net/qq_52806062/article/details/135039717

摘要：

问题：在CTR预测中，单独应用一个普通的MLP网络在学习乘法特征交互方面效率较低，现有的双流交互模型（如DeepFM和DCN），由于MLP流隐式学习特征交互，现有研究主要集中在增强互补流中的显式特征交互。
解决方法：作者提出了特征门控层和交互聚合层，形成增强的双流MLP模型--FinalMLP。
怎么做的： 1. 将两个MLP组合在一起，形成双流MLP模型。 2. 引入特征门控层和交互聚合层，以支持不同的特征输入和有效融合跨两个流的流级交互。
实验部分：在四个开放基准数据集上进行评估，并在工业系统中的在线A/B测试中对比性能。
实验结果：FinalMLP模型在性能上优于许多复杂的双流CTR模型。

引言

para1:这段讨论了CTR预测在网络广告和推荐系统中的重要性，强调了准确预测对于用户参与和商家收入的影响。CTR预测的关键挑战之一是学习特征之间的复杂关系，以便在特征很少交互的情况下，模型仍能很好地泛化。其中，多层感知器（MLP）作为一种通用的近似器，在CTR预测模型中得到了广泛应用。然而，普通的MLP网络在学习乘法特征交互时效率较低，这一问题已经得到广泛认可。
para2:这段话主要介绍了各种特征交互网络，这些网络能有效学习特征交互，但牺牲了MLP的表达能力。为此，双流CTR预测模型（如DeepFM、DCN、xDeepFM和AutoInt+）将MLP网络和专门的特征交互网络结合，既隐式学习特征交互，又显式增强特征交互，因此在工业部署中得到了广泛应用。
para3:这段话主要介绍了以往的研究证实了双流模型对单个MLP模型的有效性，但并未与简单并联的两个MLP网络（DualMLP）进行性能比较。作者首次在开放基准测试数据集上进行实证研究，发现DualMLP虽然简单，但性能令人满意，与许多设计优良的双流模型相当，甚至更好。这一发现激发了作者进一步研究双流MLP模型的潜力，并计划扩展其应用，构建一个简单而强大的CTR预测模型。
para4:这段话主要讲双流模型实际上可以看作是两个并行网络的集合。这些两流模型的一个优点是，每个流都可以从不同的角度学习特性交互，从而相互补充以实现更好的性能。例如，Wide&Deep和DeepFM提出用一个流捕获低阶特征交互，用另一个流学习高阶特征交互。DCN和AutoInt+提倡在两个流中分别学习显式特征交互和隐式特征交互。xDeepFM从矢量和位的角度进一步增强了特征交互学习。这些结果验证了两个网络流的差异化(或多样性)对两流模型的有效性有很大的影响。
para5:这段话主要介绍了DualMLP的局限性在于两个流都是简单的MLP网络,作者通过实验发现，调整网络大小可以提升DualMLP的性能，因此提议进一步研究扩大两流差异以优化基础模型。同时，探讨更有效的融合流输出方式也是一个值得深入研究的方向。
para6:这段话介绍了一种名为FinalMLP的增强双流MLP模型，该模型通过引入特征门控层和交互聚合层来提高模型性能。特征门控层是一种流特定的机制，它允许获取基于门控的特征重要性权重用于软特征选择,即根据可学习的参数、用户特征或物品特征调节门控，从而生成全局、特定于用户或特定于物品的特征重要性权重，这有助于增强特征输入的差异性，实现两个流的互补特征交互学习。交互聚合层则采用二阶双线性融合方法，将流输出与流级特征交互融合，降低计算复杂度。这种模型可以轻松插入到现有的双流模型中。
para7:这段话主要讲了FinalMLP模型在四个开放基准数据集上表现优于现有双流模型，取得了最先进性能。同时，通过离线评估和在线A/B测试，验证了FinalMLP在工业环境中的有效性，性能显著优于部署的基线。简单而有效的FinalMLP模型有望成为未来双流CTR模型发展的一个新的强力基线。本文的主要贡献如下:
- 据我们所知，这是第一个经验证明双流MLP模型的惊人有效性的工作，这可能与文献中流行的信念相反。
- 我们提出FinalMLP，一个增强的双流MLP模型，具有可插入的特征门控和交互聚合层。
- 在基准数据集上进行了离线实验，并在生产系统上进行了在线A/B测试，以验证FinalMLP的有效性。

背景和相关工作

双流CTR模型的框架
- 特征表征
- 特征选择
- 双流特征交互
- 流级融合
双流CTR模型的代表
我们的模型
- 双流MLP模型

特定流的特征选择我们的工作不是设计专门的网络结构，而是通过特定流的特征选择来扩大两个流之间的差异，从而产生不同的特征输入。

这里乘以2保证特征权重的取值范围在(0，2)，均值为1.。

流级交互聚合
- 双线性融合预测的点击概率式子如下:

为了降低计算复杂度，我们在下面引入扩展的多头双线性融合。

多头双线性融合将o1 and o2分为K个子空间：

然后，我们通过求和池聚合子空间计算，得到最终的预测点击概率:

模型训练
- 使用二元交叉熵损失

实验

实验设置
- 数据集我们在四个开放基准数据集上进行实验
- 评估指标我们将AUC作为CTR预测中最广泛使用的评价指标之一。
- 基线
- 实现我们重用基线模型，并基于FuxiCTR 实现我们的模型，我们的评估遵循与AFN 相同的实验设置。
MLP VS 显示特征交互
- 在本工作中，我们在表3中做了这样的比较。我们列举了用于一阶、二阶、三阶和高阶特征交互的代表性方法。令人惊讶的是，我们观察到MLP的性能与设计良好的显式特征交互网络不相上下，甚至优于后者。
- 综上所述，MLP所取得的较强的性能表明，虽然MLP的结构简单，在学习乘性特征方面存在不足，但MLP在以隐式学习特征交互方面表现得非常明显，这也部分解释了为什么现有研究倾向于将显性特征交互网络与MLP结合作为CTR预测的双流模型。
DualMLP和FinalMLP VS 双流基线
- 双流模型通常优于单流基线，特别是单MLP模型，表明双流模型可以学习互补特征，从而能够更好地建模预测CTR。
- 在我们的实验中，我们发现通过在两个流中设置不同的MLP大小来增加流网络的多样性可以提高DualMLP的性能。这促使我们进一步开发一个增强的双流MLP模型FinalMLP。
- 通过我们在特性门控和融合方面的可插入扩展，FinalMLP的性能始终优于DualMLP，以及跨越四个开放数据集的所有其他比较双流基线。
消融研究 ------消融研究旨在研究FinalMLP重要设计的影响。
- 特征选择和双线性融合的效果
- 多头双线性融合的效果
- 行业评估

结论和展望

在本文中，我们首次尝试研究一个简单而有效的两流模型，FinalMLP，它在每个流中使用MLP来预测CTR。为了增强两个流的输入差异，实现流级交互，我们提出了流特定特征门控和可插接的多头双线性融合模块，以提高模型性能。我们对四个开放数据集和工业设置的评估显示了FinalMLP的强大有效性。我们强调，FinalMLP的惊人结果质疑了显性特征交互建模现有研究的有效性和必要性，这应该引起社区的注意。我们还设想，简单而有效的FinalMLP模型可以作为未来双流CTR模型发展的一个新的强有力的基线。此外，将我们的特征门控和双线性融合模块插入更多的双流CTR模型也是一项有趣的未来工作。

框架理解：

Feature Selection层

Feature Selection层，在本文中使用了两个MLP ，一个MLP 门控使用用户特征学习，另一个使用物品特征学习。这样通过门控就能让两个MLP关注的信息存在差异，一个更关注用户特征，另一个更关注物品特征

Two Stream Feature Interaction层

这一层就是两个简单的MLP，MLP能够隐式的学习到特征交互。

Fusion层

Fusion层，主要作用是将两条流的输出进行融合。一般情况，两个MLP的输出会直接做concat或者sum（Wide & Deep、DeepFM等），因为底层已经做了足够的交叉了，到最上层不需要再做更多的处理。但是FinalMLP模型，底层只是简单的MLP，没有显式的特征交互，因此在本层就不能只做简单的concat或者sum，需要做交互。

具体交互公式如下：

双线性项建模了o1和o2之间的二阶交互。