【论文笔记】ICDM2019 Session-based Recommendation with Local Invariance

最新推荐文章于 2022-09-23 23:23:38 发布

Yo3ngLau

最新推荐文章于 2022-09-23 23:23:38 发布

阅读量265

点赞数

分类专栏：深度学习推荐系统文章标签：深度学习推荐系统会话推荐

本文链接：https://blog.csdn.net/weixin_43359312/article/details/115008061

版权

深度学习推荐系统专栏收录该内容

9 篇文章 1 订阅

订阅专栏

PROBLEM

现有方法编码之前行为的方式要么严格遵照顺序，要么完全忽略顺序，然而有时在一个短子序列中行为的顺序是不重要的，即所谓的local invariance，而高阶的顺序信息仍是有用的，因为数据自然上呈现序列性，一个好的SBR应当注意到不同粒度级别的序列信息.

SOLUTION

使用具备高斯权重的全自注意层提取子序列的特征，采用CNN捕捉高阶序列信息.

APPROACH

Overview

采取encoder-predictor结构.
local encoder以item embedding为输入生成短子序列中位置变化无关的group序列表示，global encoder从group序列表示中提取session表示.

Local Encoder

理想化而言，每个group $g$ 由一个将group内item embeddings加权求和得到的group embedding表示：
$\textbf{x}_g'=\sum_{v \in G}w_{g,v}\textbf{v} \tag{1}$
然而，由于group数量不可知，理想化的目标是不可实现的，而且groups可能存在hard borders，因此采取为每一初始item提取group embedding，第 $i$ 个item相应的group embedding定义如下：
$\textbf{x}_i'=\sum_{1 \le j \le t}w_{ij}\textbf{x}_j \tag{2}$
具体而言，groups有相似的邻接items组成，这意味着与item $i$ 更为相似的items具备更大的 $w_{ij}$ ：
$w_{ij} \propto \alpha_{ij}^{(l)} \cdot f_i(\vert i-j \vert) \\ \sum_jw_{ij}=1 \tag{3,4}$
$\alpha_{ij}^{(l)}$ 是利用注意力机制得到的 $\textbf{x}_j$ 的重要性得分，可视为某种程度上的相似度：
$\begin{aligned} e_{ij}^{(l)}&=\textbf{v}_l^T\tanh (\textbf{W}_l[\textbf{x}_i,\textbf{x}_j]) \\ \alpha_{ij}^{(l)}&=\frac{\exp (e_{ij}^{(l)})}{\sum_k\exp (e_{ik}^{(l)})} \tag{5,6} \end{aligned}$
注意公式 $(5, 6)$ 的 $l$ 表示 $l o c a l$ ， $f(\cdot)$ 是均值为 $0$ 、方差为 $\sigma_i^2$ 的高斯分布的可能性密集度函数.

邻接items与 $\textbf{x}_i$ 越相似，group size越大，分配给邻接items的权重越大，方差越大，换言之，方差与 $\textbf{x}_i$ 和其邻接items间评价相似度正相关，因此方差有如下定义：
$\sigma_i^2=k \cdot \frac{1}{2m}\sum_{l,0 \lt \vert i-l \vert \le m}\text{sim}(\textbf{x}_i,\textbf{x}_l) \tag{7}$
其中 $k$ 为参数， $\text{sim}(\cdot , \cdot)$ 是相似度方法，普遍采取cosine similarity， $m$ 为上下文的大小，为防止包含不在当前group的items，实验中 $m$ 取 $1\sim 3$ .
观察公式 $(3)$ ， $f_i(\vert i-j \vert)$ 的加入使得 $\textbf{x}_i'$ 集中于局部区域.

Global Encoder

global encoder将group features $[\textbf{x}_1',\textbf{x}_2',\cdots,\textbf{x}_t']$ 编码成session embedding，这里采用RNN生成session表示，RNN的输出状态为 $[\textbf{h}_1,\textbf{h}_2,\cdots, \textbf{h}_t]$ ， $\textbf{h}_i$ 可视为前 $i$ 个groups的表示，由此session表示为：
$\textbf{c}_h=\sum_i\alpha^{(g)}\textbf{h}_i \tag{8}$
其中 $\alpha^{(g)}$ 使用注意力机制计算：
$\begin{aligned} e_i^{(g)}&=\textbf{v}_g^T\tanh(\textbf{W}_g[\textbf{h}_i,\textbf{h}_t]) \\ \alpha_i^{(g)}&=\frac{\exp(e_i^{(g)})}{\sum_k\exp(e_k^{(g)})} \tag{9,10} \end{aligned}$
注意公式 $(9, 10)$ 的 $g$ 表示 $g l o b a l$ .

通过 $l o c a l$ 和 $g l o b a l$ 编码器的联合，session表示 $\textbf{c}_h$ 包含了整个session的广泛序列信息，且不受子序列中不重要的局部位置变换影响.

Predictor

考虑到用户当前兴趣用最后一个交互item表示，即 $\textbf{m}_t=\textbf{x}_t$ ，当前session混合表示 $\textbf{c}$ 由 $\textbf{c}_h$ 和 $\textbf{m}_t$ 组成，则候选item $v_i \in V$ 的得分：
$\textbf{z}_i=\textbf{v}_i^Tg(\textbf{c}) \tag{11}$
$g$ 是将 $\textbf{c}$ 转换成与 $\textbf{v}_i$ 相同纬度的神经网络.
归一化得分：
$\hat{\textbf{y}}=\text{softmax}(\textbf{z}) \tag{12}$
使用交叉熵作为优化目标：
$\mathcal{L}(\textbf{y},\hat{\textbf{y}})=\sum_i\textbf{y}_i\log \hat{\textbf{y}_i} \tag{13}$

EXPERIMENT

Comparison with Existing Methods

在这里插入图片描述

Ablation Experiments

在这里插入图片描述

Capability of Considering Local Invariance

这一部分定义了衡量两个item间相似性的公式，依据threshold $\theta$ 进行研究，具体见paper，这里从略.
在这里插入图片描述

Yo3ngLau

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】ICDM2019 Session-based Recommendation with Local Invariance

目录PROBLEMSOLUTIONAPPROACHOverviewLocal EncoderGlobal EncoderPredictorEXPERIMENTComparison with Existing MethodsAblation ExperimentsCapability of Considering Local InvariancePROBLEM现有方法编码之前行为的方式要么严格遵照顺序，要么完全忽略顺序，然而有时在一个短子序列中行为的顺序是不重要的，即所谓的local invariance
复制链接

扫一扫

专栏目录