【CTR预测、神经网络参数自适应生成】 APG: Adaptive Parameter Generation Network for Click-Through Rate Prediction

堇禤

已于 2023-10-30 22:18:31 修改

阅读量1.6k

点赞数 1

分类专栏：推荐算法链路预测注意力机制文章标签：深度学习人工智能神经网络

于 2022-05-16 17:08:05 首次发布

本文链接：https://blog.csdn.net/CRW__DREAM/article/details/124800927

版权

推荐算法同时被 3 个专栏收录

37 篇文章

订阅专栏

注意力机制

10 篇文章

订阅专栏

链路预测

6 篇文章

订阅专栏

#论文题目：APG: Adaptive Parameter Generation Network for Click-Through Rate Prediction（APG：点击率预估中的自适应参数生成网络）
#论文地址：https://arxiv.org/pdf/2203.16218.pdf
#论文源码开源地址：暂无
#论文所属单位：Alibaba
在这里插入图片描述

一、论文背景

这是一篇阿里发表的关于神经网络中网络参数自适应生成的文章，不仅可以做到不同的样本有不同的网络参数，同时通过拆分矩阵等操作大大提升了推理性能。

当前CTR预估的主要研究方向大致可以分为两个方面：

丰富输入特征：构建异质网络而不是传统的二部图，如引入用户行为序列，多模态信息，知识图谱信息等等
更先进的网络结构设计：考虑更加复杂的网络结构，如设计多样的特征交叉模块，自动的网络结构搜索等等

但是，从理论上来说，还有一种提升模型效果的方面，网络参数的优化，则很少受到关注。目前大多数模型针对所有的输入样本都采用相同的网络参数。这种方式存在以下两方面的缺点：

通过共享的参数W可以学习样本的共性模式，但对于学习样本中的特有模式则并不友好。以淘宝为例，如下图所示，不同用户如高频用户和冷启动用户的样本分布存在较大的差距，对所有的样本使用相同的网络参数很难从不同的分布中捕捉每个样本的特性。
模型学习到的共性模式，容易被高频的用户或特征所主导，以至于并不是对所有样本都是适合的。

因此，除学习样本中的共性模式外，网络参数应该更加具有适应性，能够随着不同的输入样本动态改变来捕获样本中的特有模式。但是，想要实现针对不同样本的自适应参数生成，需要解决以下两方面的挑战：

高效的计算和存储
同时学习样本间的共性模式和单个样本内的特有模式

为了解决以上两方面的挑战，论文提出了Adaptive Parameter Generation network
(以下简称APG)。该方法是一个优化权重参数的方法，并不是一个完整的推荐系统算法，此方法适用于带有权重的推荐算法中。

二、APG介绍

2.1 APG框架

可以看到，针对输入样本i，x_i为样本i的输入特征，z_i为样本i的状态(condition)向量。
在这里插入图片描述
APG的目标是对于不同的z_i，动态生成参数W_i：

之后，利用W_i和本身的x_i用于DeepCTR部分的前向计算，得到点击率预估值：在这里插入图片描述
样本i的状态向量z_i是如何生成的呢？模型参数生成如何保证高效性和有效性呢？接下来的两节进行分别的介绍。

2.2 状态(condition)向量生成

论文给出了三种状态向量z_i生成的方式，分别为Group-wise，Mix-wise和Self-wise。
在这里插入图片描述

Group-wise

Group-wise基于一定的规则对样本进行聚类，同一类别下的样本使用相同的状态向量来生成网络参数，以此来学习不同类别的特有模式。如使用用户id的embedding作为状态向量，相同用户的不同样本使用相同的参数，不同的用户参数则不同。

Mix-wise

Mix-wise策略使用多个状态向量，如用户id的embedding和最近点击item的embedding的组合。不同的状态向量之间的组合可以有输入聚合和输出聚合两种聚合方式。

输入聚合(Input Aggregation)：首先对不同的状态向量进行聚合，随后生成网络参数。聚合可以采用拼接，avg-pooling或者attention的方式。
输出聚合(Output Aggregation)：不同的状态向量生成对应的网络参数，随后对参数进行聚合。聚合同样可以采用拼接，avg-pooling或者attention的方式。

Self-wise

前面两种方式需要额外的先验知识对状态向量进行设计，而Self-wise策略则使用简单易获取的知识进行状态向量设计，如网络的第1层对应的状态向量为样本输入向量x_i，第l层对应的状态向量为网络第l-1层的输出。

2.3 参数设计

基本思路

这一节，我们以最简单的一层全连接网络作为DeepCTR部分进行介绍。
当状态向量获取后，最基本的思路是通过MLP层得到网络参数，用于DeepCTR部分的前向计算：
在这里插入图片描述
重构操作（reshape）是将MLP产生的向量进行重构，形成矩阵形式。其中，W_i是N×M维，状态向量z_i维度为D，则有APG的DeepCTR模型可表示为:

但是生成这样的一个W_i权值矩阵有两个困难：时间效率和内存效率、模式的有效性。

时间效率和内存效率：这种方式的计算(时间)复杂度为O(NMD+NM)（参数生成的计算复杂度为O(NMD)，DeepCTR部分的计算复杂度为O(NM))，存储(空间)复杂度为O(NMD)。相比于传统的共享参数的方式（计算复杂度和存储复杂度均为O(NM)），计算复杂度为D+1倍，存储复杂度为D倍。
模式的有效性：W_i完全依赖于给定的条件z_i，可能会忽略常见的模式建模。

Low-rank parameterization（低秩参数化）降低复杂度

针对第一点，论文利用了Low-rank parameterization降低复杂度，将网络参数Wi拆解为三个矩阵：
在这里插入图片描述
U_i,S_i,V_i的维度分别为N×K，K×K，K×M。则此时的APR过程变为：

图示如下：

进行如上的优化后，网络的存储复杂度变为O((NK+MK+KK)D)，由于K往往远小于N和M的最小值，因此存储复杂度可以近似为O((NK+MK)D)，而计算复杂度为O((NK+MK)(D+1))（参数生成的计算复杂度为O((NK+MK)D)，DeepCTR部分的计算复杂度为O(NK+MK)）。

Parameter sharing学习共性模式

背景中提到，APG需要解决两方面的挑战，上述Low-rank parameterization的方式，使得模型的计算和存储更加高效。接下来需要解决的挑战是：如何同时学习样本间的共性模式和单个样本内的特有模式？

论文采用的是参数共享的方式，即U和V矩阵所有实例共享，学习所有样本的共性模式，S矩阵为样本独有，学习样本的特有模式：
在这里插入图片描述

Over Parameterization（再参数化）提升模型表达能力

虽然已经解决了APG所面临的两方面的挑战，但是共享的矩阵U和V由于维度K的限制（K<<min(N,M)），在一定程度上约束了模型的表达能力，因此论文提出了一种过度参数化(Over Parameterization)的方法，进一步将矩阵U和V拆解为两个大矩阵的相乘：
在这里插入图片描述

尽管使用了过度参数化的方法，但模型训练完成后，可以直接存储V和U，不必存储对应的拆分的大矩阵，因此并没有带来额外的线上的预测耗时和存储空间。

下附完整版APG图例：