推荐系统基础知识——深度推荐模型（三）

最新推荐文章于 2024-09-11 14:42:31 发布

ZreviaX

最新推荐文章于 2024-09-11 14:42:31 发布

阅读量547

点赞数 7

分类专栏：推荐系统基础知识文章标签：人工智能机器学习推荐系统深度推荐模型

本文链接：https://blog.csdn.net/WindGrin_/article/details/137660907

版权

推荐系统基础知识专栏收录该内容

6 篇文章 0 订阅

订阅专栏

深度推荐模型

注意力机制与推荐模型的结合

AFM

Paper : Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks

Attention Neural Factorization Machine

在NFM中，两两特征交叉向量之间可能有不同的权重，某些交叉特征可能更重要，某些则不那么重要。所以AFM在NFM的基础上引入了Attention机制，给交叉特征向量加上了不同的Attention Score

$f_{\text {Att }}\left(f_{P I}(\mathcal{E})\right)=\sum_{(i, j) \in \mathcal{R}_{x}} a_{i j}\left(\mathbf{v}_{i} \odot \mathbf{v}_{j}\right) x_{i} x_{j}$

$f'_{a_{ij}} = \left(\mathbf{v}_{i} \odot \mathbf{v}_{j}\right) x_{i} x_{j}$
- 对于 $a_{ij}$ 来说，最简单的方式就是用一个单一的、只与当前交叉特征向量有关而与其他交叉向量无关的可学习参数来表示，但这存在一个问题：由于推荐系统领域输入特征的稀疏性，可能有一些交叉特征向量本身就是稀疏的（即为0向量），采用这种方式时，在梯度反向传播时，对应交叉特征的权重可能不会被有效更新
- AFM使用了一个简单的AttentionNet来解决上述梯度的问题：一个简单的单全连接层+Softmax的结构
$\begin{aligned} &a_{i j}^{\prime}=\mathbf{h}^{T} \operatorname{Re} L U\left(\mathbf{W}\left(\mathbf{v}_{i} \odot \mathbf{v}_{j}\right) x_{i} x_{j}+\mathbf{b}\right) \\ &a_{i j}=\frac{\exp \left(a_{i j}^{\prime}\right)}{\sum_{(i, j) \in \mathcal{R}_{x}} \exp \left(a_{i j}^{\prime}\right)} \end{aligned}$
其中， $W$ 为全连接层的权重矩阵， $b$ 为偏置向量， $h$ 为权重向量
- 由于全连接层中每个输出神经元都与所有输入神经元（即特征交叉向量）相连，所以在反向传播时，有一些稀疏向量存在并不影响参数的更新（因为存在多条梯度路径，一条为0还可以用其余几条的梯度去更新）

DIN

Paper : Deep Interest Network for Click-Through Rate Prediction

Deep Interest Network

DIN引入attention机制，计算用户特征与候选广告之间的关联程度，从而表达用户特征之间的不同权重关系

$\boldsymbol{v}_{U}(A)=f\left(\boldsymbol{v}_{A}, \boldsymbol{e}_{1}, \boldsymbol{e}_{2}, \ldots, \boldsymbol{e}_{H}\right)=\sum_{j=1}^{H} a\left(\boldsymbol{e}_{j}, \boldsymbol{v}_{A}\right) \boldsymbol{e}_{j}=\sum_{j=1}^{H} \boldsymbol{w}_{j} \boldsymbol{e}_{j}$
自适应激活函数（Dice）
- 普通的激活函数的分割点一般为 $0$ ，而DICE不固定为 $0$ ，而是伴随着数据的改变而动态变化
$\cdot s+(1-p(s)) \cdot \alpha s, p(s)=\frac{1}{1+e^{-\frac{s-E[s]}{\sqrt{\operatorname{Var}[s]+\epsilon}}}}$
一种高效正则化方法（Mini-batch Aware Regularization）
- DNN模型往往参数量大且推荐系统模型输入十分稀疏，在SGD优化器设置下，只有非零元素才能被有效更新。这时若使用普通的 $L_1$ 、 $L_2$ 正则化对所有的参数都进行计算正则化项并更新，则会增加很多非必要的计算量，因此DIN运用了一种正则化方法使得只有那些非零元素才被计算正则化项进行更新
  
  $L_{2}(\mathbf{W})=\sum_{j=1}^{K} \sum_{m=1}^{B} \sum_{(\boldsymbol{x}, y) \in \mathcal{B}_{m}} \frac{I\left(\boldsymbol{x}_{j} \neq 0\right)}{n_{j}}\left\|\boldsymbol{w}_{j}\right\|_{2}^{2}$

AutoInt

Paper : AutoInt: Automatic Feature Interaction Learning via Self-Attentive Neural Networks

AutoInt

模型结构
- 主要引入Self-Attention计算高阶交叉特征，引入残差计算最后的特征表示
$\begin{gathered} \alpha_{\mathrm{m}, \mathrm{k}}^{(\mathrm{h})}=\frac{\exp \left(\psi^{(h)}\left(\mathbf{e}_{\mathrm{m}}, \mathbf{e}_{\mathrm{k}}\right)\right)}{\sum_{l=1}^{M} \exp \left(\psi^{(h)}\left(\mathbf{e}_{\mathrm{m}}, \mathbf{e}_{\mathrm{l}}\right)\right)} \\ \psi^{(h)}\left(\mathbf{e}_{\mathrm{m}}, \mathbf{e}_{\mathrm{k}}\right)=\left\langle\mathbf{W}_{\text {Query }}^{(\mathrm{h})} \mathbf{e}_{\mathrm{m}}, \mathbf{W}_{\mathrm{Key}}^{(\mathrm{h})} \mathbf{e}_{\mathrm{k}}\right\rangle \end{gathered}$

$\widetilde{\mathrm{e}}_{\mathrm{m}}^{(\mathrm{h})}=\sum_{k=1}^{M} \alpha_{\mathrm{m}, \mathrm{k}}^{(\mathrm{h})}\left(\mathbf{W}_{\text {Value }}^{(\mathrm{h})} \mathbf{e}_{\mathrm{k}}\right)$

$\widetilde{\mathrm{e}}_{\mathrm{m}}=\widetilde{\mathrm{e}}_{\mathrm{m}}^{(1)} \oplus \widetilde{\mathrm{e}}_{\mathrm{m}}^{(2)} \oplus \cdots \widetilde{\mathrm{e}}_{\mathrm{m}}^{(\mathrm{H})}$

$\mathbf{e}_{\mathbf{m}}^{\operatorname{Res}}=\operatorname{ReLU}\left(\mathbf{\mathbf { e }}_{\mathbf{m}}+\mathbf{W}_{\operatorname{Res}} \mathbf{e}_{\mathbf{m}}\right)$

$\hat{y}=\sigma\left(\mathbf{w}^{\mathbf{T}}\left(\mathbf{e}_{1}^{\operatorname{Res}} \oplus \mathbf{e}_{2}^{\operatorname{Res}} \oplus \cdots \oplus \mathbf{e}_{\mathbf{M}}^{\operatorname{Res}}\right)+b\right)$

序列模型与推荐模型的结合

DIEN

Paper : Deep Interest Evolution Network for Click-Through Rate Prediction

Deep Interest Evolution Network

模型架构
- 由于用户历史数据是有前后时间关联的，所以DIEN考虑使用RNN模型来建模用户的行为模式
- 由于GRU只能学习到用户行为之间的依赖关系，无法直接反应出用户的兴趣，所以DIEN使用了一个辅助Loss来帮助学习
$\begin{array}{r} L_{a u x}=-\frac{1}{N}\left(\sum_{i=1}^{N} \sum_{t} \log \sigma\left(\mathbf{h}_{t}^{i}, \mathbf{e}_{b}^{i}[t+1]\right)\right. \\ \left.+\log \left(1-\sigma\left(\mathbf{h}_{t}^{i}, \hat{\mathbf{e}}_{b}^{i}[t+1]\right)\right)\right), \end{array}$

$L=L_{\text {target }}+\alpha * L_{\text {aux }}$
正样本即为下一个真实点击的item，负样本从非正样本中随机采样
- DIEN修改GRU结构，引入Attention机制，Attention Score计算公式如下
  
  $a_{t}=\frac{\exp \left(\mathbf{h}_{t} W \mathbf{e}_{a}\right)}{\sum_{j=1}^{T} \exp \left(\mathbf{h}_{j} W \mathbf{e}_{a}\right)}$
  - GRU with Attentional Input（AIGRU）
    - 将Attention直接作用于GRU的输入，无需修改GRU结构
    $\mathbf{i}_{t}^{\prime}=\mathbf{h}_{t} * a_{t}$
  - Attention based GRU（AGRU）
    - 将Attention机制应用于GRU的update gate
    $\mathbf{h}_{t}^{\prime}=\left(1-a_{t}\right) * \mathbf{h}_{t-1}^{\prime}+a_{t} * \tilde{\mathbf{h}}_{t}^{\prime}$
  - GRU with Attentional Update Gate（AUGRU）
    
    $\begin{aligned} \tilde{\mathbf{u}}_{t}^{\prime} &=a_{t} * \mathbf{u}_{t}^{\prime} \\ \mathbf{h}_{t}^{\prime} &=\left(1-\tilde{\mathbf{u}}_{t}^{\prime}\right) \circ \mathbf{h}_{t-1}^{\prime}+\tilde{\mathbf{u}}_{t}^{\prime} \circ \tilde{\mathbf{h}}_{t}^{\prime} \end{aligned}$

强化学习与推荐模型的结合

DRN

Paper : DRN: A Deep Reinforcement Learning Framework for News Recommendation

Deep Reinforcement Learning Network

强化学习概念在推荐系统领域的解释
DQN的结构如下所示
DRN的迭代学习过程
- 在离线部分，根据历史数据训练模型，作为智能体的初始化模型
- 在两个时间戳间的时段，利用模型进行PUSH服务，同时积累FEEDBACK
- 在每个时间戳上，利用上一阶段积累的反馈数据进行MINOR UPDATE
- 每隔一段时间，利用历史收集的数据以及用户活跃度数据使用Experience Replay进行MAJOR UPDATE
- 重复上述2~4步
MINOR UPDATE——Dueling Bandit Gradient Descent

微更新——竞争梯度下降
- 对当前网络 $Q$ 的模型参数 $W$ 添加一个较小的随机扰动 $\Delta W$ ，得到新的模型参数 $\widetilde{W}$ ，对应于探索网络 $\widetilde{Q}$
  
  $\Delta \mathrm{W}=\alpha \cdot \operatorname{rand}(-1,1) \cdot \mathrm{W}$
  $\alpha$ 为探索因子，决定探索力度大小
- 对当前网络 $Q$ 与探索网络 $\widetilde{Q}$ 分别生成推荐列表 $L$ 与 $\widetilde{L}$ ，用Interleaving将两个推荐列表组合成一个推荐列表后推送给用户
- 实时收集用户反馈。如果探索网络 $\widetilde{Q}$ 生成内容的效果好于当前网络 $Q$ ，则用探索网络代替当前网络，进入下一轮迭代
  
  $\mathrm{W}^{\prime}=\mathrm{W}+\eta \tilde{\mathrm{W}}$
  否则保留当前网络不变。