论文阅读【3】Deep & Cross Network for Ad Click Predictions

最新推荐文章于 2024-07-21 17:17:02 发布

Doris404

最新推荐文章于 2024-07-21 17:17:02 发布

阅读量605

点赞数

分类专栏：论文阅读文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/kullollo/article/details/125534324

版权

论文阅读专栏收录该内容

7 篇文章 1 订阅

订阅专栏

请添加图片描述

特征工程是许多预测问题成功的关键，但这一过程需要大量人力开销并且依赖于经验知识。DNN是解决这一问题的方法，但这种方法表示特征之间的交互是隐式。本篇论文提出的Deep & Cross Network (DCN)在保证了DNN对于特征交互的基本表示的同时，通过引入cross network使得其在特定阶数的交互关系时更加节省空间，并用CTR实验证明了DCN的这一特性。

问题描述

CTR(Click-through rate)是广告推荐领域关注的指标，它关系到广告投放地点等推荐策略的重大决策。然而，使用机器学习模型预测CTR是困难的，原因在于这个机器学习任务中的特征高维且稀疏，简单将特征拼接在一起后进入一个神经网络学习效率低，因此在推荐系统领域会使用交叉特征来提升后续模型的效率¹。

现有方法不足

早期的特征交互耗费大量人力，这种方法可以得到显式且有高解释性的交叉特征，但成本高不适合广泛使用。因而后续DNN被直接简单粗暴地使用在编码交叉特征的模型中，这种模型虽然可以天然学出交叉特征，但这种交叉特征却是隐式的，并且DNN也被发现不能够高效提取交叉特征。后续发展出了一些显式提取交叉特征、且脱离人的经验的模型，它们分为3类。本文提出的DCN属于深度特征交互中的一种。

本文核心思想

在这里插入图片描述
DCN中的交互特征指cross network中的每层输出，即 $x_1, x_2...$ ，在计算这些中间输出的过程中，起到关键作用的 $w_{c,0}$ 则代表了交叉系数的强度，随着层数增加，中间输出代表的交叉特征的阶数也随之增加。

DCN主要包括4个模块：Embedding and stacking layer、Cross network、Deep network和Combination output layer。本文核心创新点在于Cross network的设计。

具体实现细节

Cross network

在这里插入图片描述
与传统的神经网络不同，Cross network中权重和原始层 $x_0$ 以及上一层的输出结果相乘得到该层多学到的交叉特征与上一层的结果相加。
$x_{l+1} =x_0 x_l^T w_l+b_l+x_l=f(x_l,w_l,b_l )+x_l$

为什么有效

论文从3个方面解释cross network的有效性：多项式拟合、与FM(Factorization Machines)的关系、映射关系。

多项式拟合

本文数学证明了cross network等价于一个交叉特征的多项式，并且cross network的巧妙设计使得多项式的表达更加高效²。
请添加图片描述

与FM的关系

与FM类似，DCN也通过给2层之间的乘法加个权重来实现特征交叉。不同点在于FM³的权重计算基于向量乘法，而DCN则通过层传递矩阵乘法叠加而得到真实的交叉特征权重。

映射关系

每个cross network实现的功能是计算 $x_l$ 和 $x_0$ 的交叉特征，其本质是计算任意层 $x_i$ 和 $x_j$ 的交互特征，DCN利用了网络结构的特点实现了高效计算每个 $x_i$ 和 $x_j$ 的权重。
请添加图片描述

实验结果

本文主要通过CTR数据集上的表现来实验证明模型有效，实验结果证明DCN可以取得更好的准确性，同时与DNN比起网络结构更加高效，使用更少的参数能达到更好的结果。
请添加图片描述

附录

定理3.1其实本质是说明cross network相当于给 $x_0$ 向量的每一个维度做多项式变换：这个多项式中的每一项是该维度和其他维度乘积的次方，用数学公式表达为：
${\sum_\alpha c_\alpha(w_0, w_1, ...w_l)x_1^{\alpha_1}x_2^{\alpha_2}...x_d^{\alpha_d} | 0 <= |\alpha| <= l+1, \alpha\in N^d}$
其中， $x=[x_1,···,x_d]^T$ 是一个 $d * 1$ 的向量。

文中证明分2步：首先引入 $g_l(x_0):=x_l^T w_l$ 并计算 $g_l(x_0)$ 的 $x_0$ , $w_{0 \rightarrow l-1}$ 表示，接着由 $g_l(x_0)$ 得到 $x_l$ 的表示。

定理3.1的证明

请添加图片描述

见博客：推荐系统》系列之七：一文梳理推荐广告特征交互模型进展：https://zhuanlan.zhihu.com/p/393379050 ↩︎
证明见论文附录 ↩︎
见论文：S. Rendle, “Factorization Machines,” 2010 IEEE International Conference on Data Mining, 2010, pp. 995-1000, doi: 10.1109/ICDM.2010.127. ↩︎