（论文阅读笔记）A Simple Convolutional Generative Network for Next Item Recommendation-CSDN博客

本文链接：https://blog.csdn.net/dovis_song/article/details/104659009

论文：A Simple Convolutional Generative Network for Next Item Recommendation

用于下一项推荐的简单卷积网络

1.解决问题

典型的基于会话的CNN推荐器，在对项目序列中的远程依存关系进行建模时，生成模型和网络体系结构都不理想
RNN模型，无法完全利用序列中的并行计算，它们的速度在训练和评估中都受到限制。

2.创新点

使用

3.重点

1.dilated conv空洞卷积，1D CNN
2.残差网络 residual blocks

4.模型介绍

Input:将输入2D序列矩阵t2k转变为3D的1t2k的张量，其中t为序列个数，2k为潜向量空间，这里将2k看作“图像”中的通道数，而非卷积核的宽度。

图1
（c）中垂直的黑色箭头表示滑动卷积的方向。
NextltNet

图二（a）为具有标准的一维卷积的生成架构，（b）为使用带孔卷积的架构
其中r表示感受野，Fj表示第j层卷积，c表示信道，l表示空洞的大小，也就是隔（l-1）个孔卷一下
max pooling在cv领域里是安全可用的，但是在long-range sequence data里可能会丢失important posion and recurrent signals.
使用空洞卷积增大感受野的同时不会改变“图像”大小，，间隔使用零填充，不会引入更多的参数，因此更适用与长序列。
b图中，空洞大小l取值为 1，2，4，8，由这四层堆叠而成。
当卷积核宽度为3时，dilated convolutions的感知区域为 r = 2**(j+1) - 1成指数增长，而普通卷积的r = 2j + 1为线性增长。
实际上，增加模型的容量和感知范围，只需重复的1，2，4，8，1，2，4，8这样的摞就可以了
空洞卷积的运算：

例如13的2-dilated conv，序列为[1,2,3,4,5,6]
在这里插入图片描述
则卷积结果为[22,28]

残差块 residual blocks

在这里插入图片描述
图三（a）(b)中11块主要用来改变通道数，13块为空洞卷积
H(x) = F(x) - x
(a)中使用1x1的卷积将通道数从2k缩到k，再用1x1卷积将其恢复为2k，这样可以减少参数的数量
(a)的参数1 x 1 x 2 k x k + 1 x 3 x k x k + 1 x 1 x k x 2k = 7k2
(b)的参数 1 x 3 x 2k x 2k = 12k2
相比之下（a）所需的参数更少
在这里插入图片描述
其中σ和ψ表示ReLU和归一化，W1和W3表示标准1×1卷积的卷积权重，W2，W′2和W′4表示大小为1×3的l空洞卷积滤波器的权重。注意，为了简化符号省略了偏置项。
Dropout-mask
避免信息泄露，需要对结构做调整，不能让未来的item信息来预测当前item，本文实验选择（d）种方式填充。
在这里插入图片描述
最后一层
在卷积体系结构的最后一层中的矩阵，它保持输入E的相同尺寸，即t×2k。但是，输出应该是包含输出序列x1：t中所有项目的概率分布的矩阵或张量，其中xt的概率分布是生成前N个预测的期望值。为此，我们可以简单地在图2中最后一个卷积层的顶部再使用一个卷积层，其过滤器的大小为1×1×2k×n，其中n是项数。按照图一（c）中的一维变换过程，我们获得了预期的输出矩阵Ep∈Rt×n，其中softmax操作之后的每个行向量都表示xi（0 <i≤t）上的分类分布。
优化目标是最大化log-likelihood, 最大化logp(x) 等价于最小化binary cross-entroy loss
softmax开销太大，用smapled softmax和负采样解决
p（x）为项目序列x = {x0，…，xt}的联合分布
在这里插入图片描述
值p(xi|x0:i−1, θ)第i个项xi的概率，条件为所有先前的项x0:i−1

5.实验

数据集：YOO数据集：因为96%的长度小于10，所以直接移除大于10的4%，作为short-range seq data
Last.fm4数据集: 中等大小20000首（MUSIC_M）和一个大规模200000首（MUSIC_L）
对比：Caser、GRURec
评估指标：y MRR@N (Mean Reciprocal Rank) 、HR@N (Hit Ratio)、NDCG@N (Normalized
Discounted Cumulative Gain)
实验结果：准确率高，并行度高，训练速度快，相同数目的样本收敛快