【推荐系统】Deep & Cross Network

最新推荐文章于 2023-01-12 20:09:08 发布

布纸所云

最新推荐文章于 2023-01-12 20:09:08 发布

阅读量400

点赞数

分类专栏：推荐系统文章标签：深度学习算法

本文链接：https://blog.csdn.net/XindiOntheWay/article/details/105475171

版权

推荐系统专栏收录该内容

10 篇文章 3 订阅

订阅专栏

论文地址：Deep & Cross Network for Ad Click Predictions

一、背景

特征组合在提升模型的表达力上是很有效的，但是往往需要复杂的特征工程以及详尽的搜索。并且模型对于没有见过的特征组合的泛化能力也十分重要。

本文提出了由多层cross layers组成的cross network，每一层都会产生更高阶的特征组合，特征组合的最高阶由网络的深度决定，
将cross network和DNN联合训练（DNN能够学习非常复杂的特征交叉，但是会极大地增加参数的数量，并且无法确定特征组合的阶数）
实验结果表明联合训练可以在模型准确性以及存储效率上都有优越的表现

贡献：

自动特征交叉，清晰描述特征交叉的阶数
引入的复杂度微不足道

残差神经网络是什么？

二、结构

DCN模型的结构如下图所示：
在这里插入图片描述

2.1 Embedding & Stacking layer

在这里插入图片描述

低维稠密的连续特征(dense feature)不需要经过embedding，经过normalize后直接进入stacking层
对于稀疏的离散特征(sparse feature)进行embedding:
- 假设第 $i$ 个特征为离散特征： $x_i\in R^{n_v}$ ，进过Embedding层得到 $n_e$ 维的Embedding向量：
  $x_{emb,i}=W_{emb,i}x_i$
  其中 $W_{emb,i} \in R^{n_e\times n_v}$
将上述得到的 $E m b e d d i n g$ 向量和连续型特征 $s t a c k$ 起来得到网络的输入 $x_0$ ：
$x_0=[x_{emb,1}^T, x_{emb,2}^T,\cdots,x_{emb,k}^T,x_{dense}^T]$

2.2 Cross Network

在这里插入图片描述
$C r o s s$ $n e t w o r k$ 采用了多层残差网络 ( $M u l t i$ - $l a y e r$ $R e s i d u a l$ $N e t w o r k$ )。
具体地，由 $c r o s s$ $l a y e r$ 组成，第 $l + 1$ 层的输出 $x_{l+1}$ 如下：
$x_{l+1}=x_0x_l^Tw_l + b_l +x_l = f(x_l,w_l,b_l) +x_l$

$x_{l+1}$ , $x_l \in R^d$ 分别为第 $l$ 和第 $l + 1$ 个 $c r o s s$ $l a y e r s$ 输出的列向量
$w_l, b_l \in R^d$ 为第 $l$ 层的参数
在 $x_l$ 进过特征交叉 $f$ 后，每个 $c r o s s$ $l a y e r$ 又把输入 $x_l$ 加了回来
$R^d \rightarrow R^d$ 拟合残差 $x_{l+1} - x_l$

下图是上式的可视化描述：
在这里插入图片描述

Cross Network特殊的网络结构使得cross feature的阶数随着layer depth的增加而增加
对于输入 $x_0$ ，一个 $l$ 层的 $c r o s s$ $n e t w o r k$ 特征交叉的最高阶数为 $l + 1$
实际上，cross network 由 $x_1^{\alpha_1}x_2^{\alpha_2}\cdots x_d^{\alpha_d}$ 所有特征交叉项组成 ( $\alpha_i=1,2,\cdots, l+1$ )

复杂度分析

假设有 $L_c$ 层 cross layer，输入的维度为 $d$ ，cross network 的参数个数为： $2\times L_c \times d$
- 一个 cross network 的时间和空间复杂度是输入维度 $d$ 的线性函数，由此引入的复杂度微不足道，因此DCN和DNN的复杂度是一个级别的
- 但是较少的参数也限制了模型的表达能力，为了学习高度非线性的特征组合，DCN并行引入了deep network:

2.3 Combination Layer

在这里插入图片描述
Combination layer 将 cross network 和 deep nerwork 的输出连接起来，然后经过一个标准的 $l o g i t s$ 层(fully-connected + sigmoid)：
$p=\sigma([x_{L_1},x_{L_2}]w_{logits})$

$x_{L_1}\in R^d,x_{L_2} \in R^m$ 分别为 cross network 和 deep nerwork 的输出
$w_{logits} \in R^{d+m}$
$\sigma(x)=\frac{1}{1+e^{-x}}$

2.4 loss function

DCN 的损失函数如下：
$-\frac{1}{N}\sum_{i=1}^{N}(y_ilog(p_i)+(1-y_i)log(1-p_i)) + \frac{\lambda}{2}\sum_{l}||\bm{w}_l||^2$

三、分析

FM的泛化

$C r o s s$ $n e t w o r k$ 也使用了在 $F M$ $m o d e l$ 中的参数共享( $p a r a m e t e r$ $s h a r i n g$ )的思想:
- 对于某个特征，两个模型都会学习独立于其他特征的权重，而组合特征的权重则是该组合特征涉及的单个特征的权重的某种组合
- 在FM中，特征 $x_i$ 的权重向量为 $v_i$ ，而特征组合项 $x_ix_j$ 的权重为 $v_i,v_j>$
- 对于一个有着 $l$ 层 $c r o s s$ $n e t w o r k$ 的 $D C N$ 中，特征 $x_i$ 与标量 ${w_{k}^{(i)}\}_{k=0}^l$ 关联，而 $x_ix_j$ 的权重则是与 $x_j$ 关联的集合 ${w_{k}^{(i)}\}_{k=0}^l$ 中的参数和与 $x_j$ 关联的集合 ${w_{k}^{(j)}\}_{k=0}^l$ 里参数的乘积
参数共享不仅使得模型更加有效，同时也增强了模型的泛化能力，使得模型能够学习到没有在训练集中见过的组合特征的权重
FM是一个浅层的结构，只能局限于表达2阶的组合特征；DCN则能够建立 $x_1^{\alpha_1}x_2^{\alpha_2}\cdots x_d^{\alpha_d}$ 各种阶数的组合项， $\bm{\alpha}=[\alpha_1,\alpha_2,\cdots,\alpha_d]$ 为特征组合中各个特征的阶数，而该特征组合的最高总阶数由 $c r o s s$ $n e t w o r k$ 的深度 $l$ 界定，即 $0\leq|\bm{\alpha}|=\sum_{i=1}^d\alpha_i\leq l+1$
此外，与 $h i g h$ - $o r d e r$ $F M s$ 不同， $D C N$ 的参数数量是输入维度 $d$ 的线性函数，其复杂度和传统的 $D N N$ 是一个量级的

Efficient Projection

DCN可以仅使用 $d$ 维向量进行高效的存储：

设 $\tilde{x}\in R^d$ 为一个 $c r o s s$ $l a y e r$ 的输入：
$\begin{aligned} x_{\rho} &=x_0\tilde{x}^Tw \\ &=\left[ \begin{array}{ccc} x_1\\ x_2\\ \vdots \\ x_d \end{array} \right ] \left[ \begin{array}{ccc} \tilde{x}_1&\tilde{x}_2 &\cdots & \tilde{x}_d \end{array} \right ] \left[ \begin{array}{ccc} w_1\\ w_2\\ \vdots \\ w_d \end{array} \right ] \\ &=\left[ \begin{array}{ccc} x_1\\ x_2\\ \vdots \\ x_d \end{array} \right ](w_1\tilde{x}_1+w_2\tilde{x}_2+\cdots w_d\hat{x}_d) \\ &=\left[ \begin{array}{ccc} w_1x_1\tilde{x}_1+w_2x_1\tilde{x}_2+\cdots w_dx_1\tilde{x}_d\\ w_1x_2\tilde{x}_1+w_2x_2\tilde{x}_2+\cdots w_dx_2\tilde{x}_d\\ \vdots \\ w_1x_d\tilde{x}_1+w_2x_d\tilde{x}_2+\cdots w_dx_d\tilde{x}_d\\ \end{array} \right ] \\ \end{aligned}$
上式等同于：

这样可以仅使用 $d$ 维向量进行高效的存储。

四、实验结果

数据

Criteo Display Ads数据集

目标：点击率预估
13个整数特征，26个类别型特征（维度都很高）
6天的数据训练，第7天的数据划分validation和test set

实施细节

Data preprocessing and embedding：
- 实值特征 $\rightarrow$ $l o g$ $t r a n s f o r m$
- 类别型特征 $\rightarrow$ $e m b e d d i n g$ $(s i z e = 6 \times (c a t e g o r y$ $cardinality)^{1/4})$
- 把所有embedding连接起来后的向量维度为1026
Optiimzation
- mini-batch stochastic optimization with $A d a m$ optimizer
- batch_size=512
- gradient clip normwas set at 100
Regularization
- early stopping
- 发现 $L_2$ 和 $d r o p o u t$ 没啥效果
Hyperparameters
- 隐层的数量(2-5)
- 隐层的维度(32-1024)
- learning rate初值(0.0001-0.001,step:0.0001)
- cross layers的数量(1-6)

用于比较的模型

模型名称	描述	结构
$D N N$	即没有cross layers的 $D C N$	2层deep layer(1024)，6层cross layers
$L R$	对整数特征在log尺度上进行离散化，单特征加上选择出来的特征组合	42个交叉特征
$W i d e$ & $D e e p$	wide部分为sparse features	5层deep layer
$D e e p$ $C r o s s i n g$		5个residual units

结论

Deep & Cross 能够较好地处理sparse和dense features
对于特征组合有清洗的表达
每增加一个cross layer，特征组合的阶数+1
在模型准确性以及memory usage上都有优越的表现

参考资料

Deep & Cross Network总结

布纸所云

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【推荐系统】Deep & Cross Network

论文地址：Deep & Cross Network for Ad Click Predictions目的如何解决稀疏特征向量稠密化的问题：离散类特征编码后过于稀疏，不利于直接输入神经网络进行训练如何解决特征自动交叉组合的问题如何在输出层达成问题设定的优化目标残差神经网络是什么？二、结构DCN模型的结构如下图所示：Embedding & Stacking lay...
复制链接

扫一扫