论文解读 | NeurIPS2023：面向深度稀疏网络的混合粒度特征交互选择

AITIME论道

于 2023-12-11 18:30:59 发布

阅读量727

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247520653&idx=1&sn=8ff995a0a44b23850eb86534e94cd6bc&chksm=e89fc52e94de72e3e2887b34690d7ee2709fd282f0c97e4b22dac44b62d4fccf258c306e128b&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

讲者简介

吕福源：

麦吉尔大学博士研究生，主要研究方向为自动机器学习、推荐系统和软件工程

Title

面向深度稀疏网络的混合粒度特征交互选择

Content

内容简介

深度稀疏网络 (deep sparse network) 被广泛研究为高维稀疏特征的预测任务的神经网络架构，特征交互选择是一个关键组件。虽然以前的方法主要集中在如何在粗粒度空间中搜索特征交互，但很少有人关注更细粒度的特征。在这项工作中，我们介绍了一种混合粒度特征交互选择方法，该方法针对深度稀疏网络的特征场和特征值。为了探索这种扩展空间，我们提出了一个动态计算的分解空间。然后，我们开发了一种称为 OptFeature 的选择算法，该算法同时有效地从特征场 (feature field) 和特征值 (feature value) 中选择特征交互。在三个大型基准数据集上的实验表明，OptFeature 在准确性和效率方面表现良好。

个人主页：https://fuyuanlyu.github.io/
论文链接：https://arxiv.org/pdf/2310.15342.pdf
代码链接：https://github.com/fuyuanlyu/OptFeature

Introduction

深度稀疏网络（Deep Sparse Network）通常用来处理稀疏且高维的特征。它在现实世界的场景中得到了广泛的应用，如广告推荐、欺诈检测等。例如，在广告推荐的背景下，输入通常包括用户id和City等高维特征，这对最终预测有很大贡献。

如下左图所示，一般的DSN框架由三个组件组成。首先，嵌入层将不同的特征值转换为embedding。接下来，特征交互层基于原始特征的embedding创建特征交互。最后，预测器根据特征及其交互进行最终预测。DSN模型做出准确预测的核心挑战是有效地捕获输入特征之间合适的特征交互。

其中，特征交互层在DSN框架中起着重要的作用。它除了进行特征的交互建模，也被用作特征的交互选择。我们通常会将信息量丰富的特征作为输入，以方便模型后续进行准确的预测。

Problems

假设自己是运动器械广告商，而蒙特利尔冬天的流行运动是滑雪。所以，当广告商看到“蒙特利尔”和“冬天”的组合时，大概率会给用户推荐滑雪装备，而用户也会有非常高的购买概率，这就属于信息量丰富的指示。
但是如果将城市换成“上海”，人们所喜欢的运动是多元的，那么“上海”和“冬天”的组合并没有带来丰富的信息。这种对比让作者考虑到，可能需要一个更多细粒度的特征选择结果，而不是停留在粗糙的特征选择上。

Methodology

当作者试图进一步提升选择力度时，遇到的最大问题是维度爆炸（dimension explosion）。维度爆炸是指在某些计算或数据处理任务中，随着问题规模的增大，问题所涉及的特征或变量的数量呈指数级增长，从而导致计算或存储需求急剧上升的现象。

广告系统是DSN的最大应用场景，所以此处仍然以广告系统为例。假设Field（例如城市等）数量通常小于等于100，但是value的值（如上海、蒙特利尔）等却约等于10^7。所以，对于二级的交互特征而言，在升维力度更细化后，计算资源会变得非常庞大，这样的选择是不可取的。

在本文中，作者一方面利用了特征选择矩阵的对称性，另一方面利用了Multi Modality Tensor Decomposition的方法，试图将选择张量进行分解。首先，作者对其进行经典的SVD分解，由于A本身是对称矩阵，所以U与V是同一个矩阵。但是，如果SVD的秩很小，这种分解会损失很多信息，降低精度；而如果秩很大，又会导致十分庞大的计算量。所以，在完成SVD分解后，作者进一步使用MLP layer去拟合矩阵U，通过这样的方式缩小秩，使得矩阵U与V的行列长度不再依赖于中间的rank矩阵，此时需要保存的参数量也会大幅减小。

此外，作者在文中也提出了另一种方法Hybrid-grained Selection。这是建立在不需要将粒度分解到value层级的假设之上的，此时Hybrid-grained Tensor将field和value的选择进行组合，得到最终的选择结果。

除了维度爆炸的问题之外，本文作者还解决了另一个问题，即如何进行端到端的应用选择结果。特征选择矩阵A是0-1矩阵，所以本质上选择的结果是稀疏的。这就提出一个问题：如何对其进行训练？

本文提出了Sparsification-based Selection Alg，联合进行特征交互选择并训练模型参数进行有效搜索。为了帮助将连续特征选择张量转换为准确的二元选择，文中采用STE函数将连续数据离散化。STE可以表述为一个定制的函数S(·)，它的前向传递作为一个单元阶跃函数和后向传递为 d/dx(S(x)) = 1，这意味着它将直接向后传递梯度。这样，就可以模拟离散特征交互选择，同时为value级选择参数提供有效的梯度信息，使整个过程可以端到端训练。

Results

下图中，展示了三个基准数据集的模型性能。可以观察到，OptFeature在所有三个基准数据集上始终优于其他模型，验证了混合粒度选择空间和选择算法的有效性。其次，DSN通常比浅层模型产生更好的性能，这表明了设计强大的稀疏网络的重要性。第三，与结合所有可能的交互相比，具有特征交互选择的DSN往往表现更好。这证实了在DSN中进行特征交互选择的重要性。最后，分解选择空间（例如OptFeature和PROFIT）的方法始终优于直接导航原始选择空间的AutoFIS。

同时，本文还评估了模型效率，结果如下图。我们可以观察到OptFeature在推理时优于所有其他方法，而其模型大小与其他特征交互选择方法相当。在部署DSN时，模型精度和推理效率都是关键因素。OptFeature不仅实现了最佳性能，而且减少了推理时间，表明其实用价值。

Conclusion

首先，该项工作将选择的粒度从field层级提升到value层级，进一步提升到Hybrid层级；其次，本文介绍了一种针对特征域(field)和特征值(value)级别的混合粒度选择方法。本文提出了一种分解方法来降低空间复杂度并使其可训练，并开发了一种名为OptFeature的选择算法，该算法同时从特征域(field)和特征值(value)角度选择交互特征。最后，在三个真实基准数据集上进行的实验验证了所提方法的有效性和效率。关于搜索效率和选择粒度的进一步研究说明了OptFeature的优越性。

Limitation

本文的工作大多数是以广告的场景和数据进行验证的，并未在实际系统中验证其有效性；对于特征交互和特征选择的结合也是后续的一个研究方向；该篇工作是单指标驱动的，作者更希望提升模型在多方面的效果，如隐私保护、公平性等。

提醒

点击“阅读原文”跳转到00:22:52

可以查看回放哦！

往期精彩文章推荐