TFNet: Multi-Semantic Feature Interaction for CTR Prediction 论文简读

最新推荐文章于 2023-05-15 10:28:02 发布

珍妮的选择

最新推荐文章于 2023-05-15 10:28:02 发布

阅读量1.2k

点赞数 1

分类专栏：论文简读文章标签：机器学习算法深度学习特征交叉

本文链接：https://blog.csdn.net/Eric_1993/article/details/109322584

版权

论文简读专栏收录该内容

2 篇文章 0 订阅

订阅专栏

TFNet: Multi-Semantic Feature Interaction for CTR Prediction 论文简读

TFNet

文章信息

文章标题: TFNet: Multi-Semantic Feature Interaction for CTR Prediction
发表时间: Tencent, SIGIR 2020

广而告之

可以在微信中搜索 “珍妮的算法之路” 或者 “world4458” 关注我的微信公众号；另外可以看看知乎专栏 PoorMemory-机器学习, 以后文章也会发在知乎专栏中；

主要内容

本文介绍了 Tensor-based Feature interaction Network (TFNet) 模型, 它引入了一个 operating tensor, 由 multi-slice matrices 组成, 可以实现在多种语义层面的特征交叉. 网络结构图如下:

其中 tensor-based feature interaction layer 的实现如下:

假设每个 field 对应的 embedding $\bm{v}_i\in\mathbb{R}^{d}$ , 引入 $\bm{T}_1\in\mathbb{R}^{d\times m\times d}$ 这个 3 阶的 operating tensor, 其由 $m$ 个大小为 $\mathrm{T}_{1}^{[i]} \in \mathbb{R}^{d \times d}$ 的 slice 组成, 它对要交叉的 feature pair $(\bm{v}_i, \bm{v}_j)$ 进行操作, 得到在某个语义空间下的表示. 由于 $\mathrm{T}_{1}$ 包含 $m$ 个 slice matrix, 因此可以得到一个 feature pair 在 $m$ 个语义空间下的表示:

$\mathbf{s}_{i j}=\mathbf{v}_{i}^{T} \mathbf{T}_{1} \mathbf{v}_{j}$

其中 $\mathbf{s}_{i j}\in\mathbb{R}^{m}$ . 最后将所有交叉特征的结果 concatenation 起来, 可以得到 $\bm{S}\in\mathbb{R}^{q\times m}$ , 其中 $q = n * (n - 1) / 2$ .

注: feature pair $(\bm{v}_i, \bm{v}_j)$ 在某一个语义空间中的表示为一个 scalar, 即 $\mathbf{v}_{i}^{T} \mathbf{T}_{1}^{[i]} \mathbf{v}_{j}$ 的结果为 scalar, 假设

$\bm{v}_i = [u_1, u_2]^T \\ \bm{v}_j = [v_1, v_2]^T \\ \mathbf{T}_{1}^{[i]} = \left[ \begin{matrix} a & b\\ c & d \end{matrix} \right]$

则 $\mathbf{v}_{i}^{T} \mathbf{T}_{1}^{[i]} \mathbf{v}_{j}$ 的结果为:

$[u_1, u_2]\cdot\left[ \begin{matrix} a & b\\ c & d \end{matrix} \right]\cdot\left[ \begin{matrix} v_1\\ v_2 \end{matrix} \right] = au_1v_1 + cu_2v_1 + bu_2v_1 + du_2v_2$

这个运算实际上可以转换为, 先做 $\mathbf{v}_{i} \mathbf{v}_{j}^T$ 生成大小为 $d\times d$ 的矩阵后, 再和 $\mathbf{T}_{1}^{[i]}$ 做哈达玛积, 最后对矩阵中的所有值求和:

$\begin{aligned} &\text{sum}\left(\left[ \begin{matrix} u_1\\ u_2 \end{matrix} \right]\cdot[v_1, v_2]\odot\left[ \begin{matrix} a & b\\ c & d \end{matrix} \right]\right) \\ =& \text{sum}\left(\left[ \begin{matrix} u_1v_1 & u_1v_2\\ u_2v_1 & u_2v_2 \end{matrix} \right]\odot\left[ \begin{matrix} a & b\\ c & d \end{matrix} \right]\right) \\ =& au_1v_1 + cu_2v_1 + bu_2v_1 + du_2v_2 \end{aligned}$

另外, 不同语义空间应该有不同的权重, 所以作者又介绍了 Adaptive Gate 来学习 $\bm{T}_1$ , 方法如下:

不做详细介绍了, 时间宝贵~ 其中:

$\mathbf{g}_{a}=\operatorname{softmax}\left(\mathbf{v}_{i}^{T} \mathbf{T}_{3} \mathbf{v}_{j}\right)$

最后再回到第一张图 (网络结构图), 其中 $\bm{S}\in\mathbb{R}^{q\times m}$ , 其中 $q$ 为交叉特征的个数, $\bm{S}$ 保存了这些交叉特征在 $m$ 个语义空间中的表达, 之后 $\bm{g}_c\in\mathbb{R}^{q}$ 在论文中被称为 Control Gate, 用于选择重要的交叉特征, 因此得到 $\bm{s}_h = \bm{S}^T\bm{g}_c\in\mathbb{R}^{m}$