排序算法模型(9)：优化特征交叉方式的积基神经网络(PNN)

唐犁

已于 2022-12-31 16:49:02 修改

阅读量1.4k

点赞数

分类专栏：机器学习文章标签： CTR PNN 深度学习广告算法推荐算法

于 2022-04-09 22:21:50 首次发布

本文链接：https://blog.csdn.net/github_38325884/article/details/120975126

版权

机器学习专栏收录该内容

10 篇文章 3 订阅

订阅专栏

2016年SJTU与UCL合作了一篇论文《Product-based Neural Networks for User Response Prediction》，这篇文章提出了FM和FNN等CTR预估算法的局限性，试图通过在神经网络中引入product layer来解决特征之间交互的问题，并命名为Product-based Neural Networks，积基神经网络。论文发表之后，product layer逐渐成为CTR预估模型中的常见配置，算是众多rank模型中的一个经典款。

FM与FNN的局限性

FM与FNN通过对特种组合的latent vector的挖掘，很大程度上改善了早先需要人工特征工程的问题。但是FNN虽然是将FM的特征组合能力与神经网络进行了结合，但这种“加法操作”对于多个类别的离散特征之间的关联挖掘或许并不是最好的方式。因此PNN的作者提出了product layer，通过求积操作来表现特征之间的关联。

积基神经网络PNN

网络结构

PNN的网络结构是由embedding layer，product layer，hidden layers以及output layer构成的。从原论文中给出的结构图中可以看出，product layer分为 $z$ 和 $p$ 两部分，输出分别记作线性信号 $l_z$ 和二次信号 $l_p$ 。
Product-based Neural Network Architecture.
图中的 $l_z$ 是 $f$ 与 $1$ 做运算，因此就是embedding layer的结果直接复制而来，目的是为了保留线性特征，而 $l_p$ 则是对embedding layer的结果两两组和求积得到的。根据 $l_p$ 使用的求积方式的不同，PNN又被细分为Inner Product-based Neural Network(IPNN)和Outer Product-based Neural Network(OPNN)。

在得到 $l_z$ 与 $l_p$ 的结果之后，连接它们并送入hidden layer L1，输出记作 $l_1$ 。这里一般使用ReLU作为激活函数，即 $l_1=relu(l_z+l_p+b_1)$ 。原论文的结构图中给出的hidden layers是两层FC，实际应用中可以根据情况自行调节。构建时只需要将每个FC layer的结果送入下一层即可，如 $l_2=relu(W_2l_1+b_2)$ 。通过所有hidden layers之后，将最后的结果通过一个output layer得到最终的CTR预估结果。以论文中的两层FC为例，最终的output layer应该表示为 $\hat{y}=\sigma(W_3l_2+b_3)$ 。

可以看出整个PNN的网络结构非常清晰简洁，最重要的就是 $l_p$ 部分的求解。

IPNN

IPNN线性信号部分的处理是，将 $z$ 与权重矩阵 $W^n_z$ 进行内积运算，其中 $n$ 是输入特征的field数，因此有 $l_z=(l_z^1, l_z^2, ..., l_z^n, ..., l_z^{D_1}),$ 其中 $l_z^n = W_z^n\odot z$ 。内积运算的定义为 $A\odot B\triangleq\sum_{i,j}A_{i,j}B_{i,j}$ ，因此对于线性信息 $z$ 及其权重矩阵 $W^n_z$ 有 $l_z^n = W_z^n\odot z = \sum_{i=1}^N\sum_{j=1}^M (W_z^n)_{i,j}z_{i,j},$ 其中 $M$ 是embedding之后的维度值。对于二次信号部分， $l_p^n=\sum_{i=1}^N\sum_{j=1}^N (W_p^n)_{i,j}p_{i,j}$ ，这里的 $p$ 和 $W^n_p$ 都是对称的。

按照上面的方式进行连接之后，神经网络的复杂度会很高。 $l_1=relu(l_z+l_p+b_1)$ 在求解时，空间复杂度为 $O(D_1N(M+N))$ ，时间复杂度为 $O(N^2(D_1+M))$ 。论文受到FM的启发，使用矩阵分解降低模型的复杂度。假设 $W_p^n=\theta ^n {\theta ^n}^T$ ， $l_1$ 的求解可以被化简为 $W_p^n\odot p=\sum_{i=1}^N\sum_{j=1}^N\theta _i^n\theta _j^n\langle f_i, f_j\rangle=\langle\sum_{i=1}^N\delta_i^n,\sum_{i=1}^N\delta_i^n\rangle,$ 其中 $\delta_i^n=\theta_i^nf_i$ 。因此， $l_p$ 部分的求解就变成了 $l_p=(\parallel\sum_i\delta_i^1\parallel, ..., \parallel\sum_i\delta_i^n\parallel, ..., \parallel\sum_i\delta_i^{D_1}\parallel)$ 。原本参数量为 $N\times N$ 的矩阵 $W_p^n$ 被分解为大小为 $N$ 的向量 $\theta^n$ ，从而使 $l_p$ 部分的空间复杂度和时间复杂度都降为 $O(D_1MN)$ 。

OPNN

OPNN与IPNN的区别是，IPNN对每对特征向量运算之后返回标量，而OPNN则是生成矩阵。在IPNN中， $l_p^n=\sum_{i=1}^N\sum_{j=1}^N (W_p^n)_{i,j}p_{i,j}$ ，这里的 $p_{i,j}$ 是一个值，因此 $p$ 是一个大小为 $N\times N$ 的矩阵。而在OPNN中， $p_{i,j}=f_if_j^T$ ，此时对于任意一个 $p_{i,j}$ 而言，都是一个 $M\times M$ 的矩阵。因此OPNN的时间复杂度与空间复杂度，都是 $O(D_1M^2N^2)$ 。为了降低OPNN的复杂度，PNN的作者提出了一个superposition。

作者定义 $f_\Sigma=\sum_{i=1}^Nf_i$ ，从而重定义了二次信号部分 $p=\sum_{i=1}^N\sum_{j=1}^Nf_if_j^T=f_\Sigma(f_\Sigma)^T$ 。此时， $p$ 本身就是一个 $M\times M$ 的矩阵了，同理 $W_p$ 的大小也是 $M\times M$ 。这时的 $l_p$ 部分的时间复杂度与空间复杂度再次被降低为 $O(D_1M^2)$ 。

唐犁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
排序算法模型(9)：优化特征交叉方式的积基神经网络(PNN)

2016年SJTU与UCL合作了一篇论文《》，这篇文章提出了FM和FNN等CTR预估算法的局限性，试图通过在神经网络中引入product layer来解决特征之间交互的问题，并命名为Product-based Neural Networks，积基神经网络。论文发表之后，product layer逐渐成为CTR预估模型中的常见配置，算是众多rank模型中的一个经典款。
复制链接

扫一扫

专栏目录