基于评论文本的推荐系统

最新推荐文章于 2024-08-20 21:17:50 发布

大龙哥。

最新推荐文章于 2024-08-20 21:17:50 发布

阅读量2.6k

点赞数 1

文章标签：深度学习推荐系统

本文链接：https://blog.csdn.net/qq_41475825/article/details/122347039

版权

基于评论的推荐系统

摘要

当前人们在线上购物的行为越来越多，与此同时，当用户在完成购物后，部分用户会根据自己的体验给出相应的评价以及评分，其中评分数据往往是非常稀疏的，而评价文本中往往蕴含着对应用户的大量偏好信息，如何挖掘其中的信息，进而弥补评分数据的稀疏性是研究人员的研究重点。

通常利用评论文本的方式可分为两种

文档级别：将user或item的相关评论文本拼接成文档进行表示学习，简单的处理就是，把user的评论文本拼接在一起作为一大段话，将这句话通过CNN得到user特征向量，item的处理同上。
评论级别：对每条评论文本单独建模，并将每条文本的特征进行聚合得到user或item的特征。

数据集

常用的数据集包括Amazon、Yelp的评论数据集。

Yelp：https://www.yelp.com/dataset-challenge

Amazon：https://snap.stanford.edu/data/web-Amazon.html

Amazon中的每条样本的数据大致如下：

{
"reviewerID": "A1VXOAVRGKGEAK", 用户编号
"asin": "0439893577", 商品编号
"reviewerName": "Angie", 用户名
"helpful": [0, 0], 该评论对其他人是否有帮助，[7,8] 8人中7人觉得评论有用
"reviewText": "I like the item pricing. My granddaughter wanted to mark on it but I wanted it just for the letters.", 
"overall": 5.0, 评分
"summary": "Magnetic board", 总结
"unixReviewTime": 1390953600, 评论时间
"reviewTime": "01 29, 2014"评论时间
}

一般数据预处理的时候要将每个user评论过的文本，每个item被用户评论的文本分别找出来，大致如下。

{
userID:'A1VXOAVRGKGEAK',
reivew{'对item8的评论','对item5的评论','对item10的评论'}
#因为user买过的商品是随机的，且并没有对所有的item进行评价。
}

文档级别

DeepCoNN

题目：Joint Deep Modeling of Users and Items Using Reviews for Recommendation

论文地址：https://dl.acm.org/doi/abs/10.1145/3018661.3018665

深度学习应用到review-based方法上的经典文章。

在这里插入图片描述

DeepCoNN的网络结构如上图所示，每次进入的是(user,item)对，输出是rating（评分）

user review text模块是将该user评论的文本拼接成一个文档，文档表示为

$D=\{w_1,w_2,w_3,...,w_n\}$ ，其中 $n$ 是文档的长度。 $w_i$ 是第 $i$ 个字符。这一步使用的look-up表是
$D$ 经过look-up得到每个字符的词向量，得到 $V=\{v_1,v_2,...,v_n\}, v_i ∈R^d$ ，其中d 是词嵌入的维度。
$V$ 进入CNN+maxpooling中得到该文档的特征表达 $O∈R^{n1}$ ， $n 1$ 是CNN中特征向量卷积核的个数。
$O$ 进入Full-Connnect层，相当于降为，得到 $X∈R^n$ ，item的文档进入相同的网络结构（参数不共享），得到 $Y∈R^n$ .
$\oplus Y, \oplus$ 表示张量的拼接，即 $\in R^{2n}$ ，接着将 $z$ 输入（交互层）让user和item的特征交互（上图并未画出交互层），这里的交互层文中使用的是MF进行交互，具体原理还在学习中，公式如下。

$w_0+\sum_{i=1}^{|z|}w_iz_i+\sum_{i=1}^{|z|}\sum_{i=1}^{|z|}<v_i,v_j>z_iz_j$

当然也可以使用FC全连接层进行交互

$J = W O + b$

优势：早期使用深度学习的方法。

劣势：训练时，user的reviews中包含了测试集中item的评论，例如测试集中有(user1,item2)的样本，在训练时，user1的reviews中包括对item2评论，存在信息泄露的

TransNet

题目：TransNets: Learning to Transform for Recommendation

论文地址：http://nlp.csai.tsinghua.edu.cn/~lzy/publications/ijcai2017_transnet.pdf
在这里插入图片描述

TransNet网络结构如上图。

TransNet指出了DeepCoNN在对user或者item建模的时候，应该把目标user对目标item的评论从文档中去掉，简单来讲，测试集中有(user1,item1)的样本，那么在训练时，对user1建模的时候，应该把user1对item1的评论从文档中去掉。TransNet认为DeepCoNN在训练时泄露了测试集中的信息，模型已知user1对item1的评论，当然容易预测其得分。

TransNet核心思想：通过user的所有review（除去目标item的reivew）和item的所有reviews（除去目标user的reivew），利用Transform模块生成user-item的review的特征，并根据该review特征进行打分（同情感分类问题）

假设样本(userA, itemB)，TransNet 分为两个网络，Target Network和Source Network。

Target Network： $rev_{AB}$ 表示userA对itemB的评论，经过CNN和FMt后得到 $x_t$ ，得到userA对itemB的得分，类似于情感分类任务。
Source NetWork：user和item的reviews经过嵌入层，CNN+pooling层后得到特征 $x_A 和x_B$ ，接着 $z_0=[x_A,x_B]$ ，表示拼接 $x_A,x_B$ ，然后 $z_0$ 经过Transform层（以我的理解，这里就是一个多层全连接层）得到 $z_l$ ，最后将 $z_l$ 输入FMs预测得分。
在训练过程中，loss不仅包括标签的loss，而且还要包括Soure Net的 $z_l$ Target Net的 $x_t$ 的 $L_2$ 损失。即

$r_{AB}-r_t|$ ：Target的评分损失。

$z_l-x_t||_2$ ：Soure Net和Target Net生成的特征向量的L2损失。

$r_{AB}-r_s|$ ：Soure Net的评分损失。

上面的三个损失是分开优化的（三步优化），并非是取和后再反向传播优化。

在这里插入图片描述

优势：新奇的想法，使用未包含 $rev_{A B}$ 的样本，尽量生成 $rev_{A B}$ 的特征向量，这样将评分预测的问题转化成了情感分类问题。

劣势：如果训练集中不包含 $rev_{AB}$ ，就不能训练Target Net，并且 $z_l-x_t||_2$ ，无法计算。如果从测试集中获取，存在信息泄露的风险。

评论级别

MPCN

题目：Multi-Pointer Co-Attention Networks for Recommendation

论文地址：https://arxiv.org/pdf/1801.09251.pdf
在这里插入图片描述

MPCN认为，存在一些评论并不能体现user或者item的特征，评论的地位并不是相等的，因此MPCN使用Review Pointers机制选择重要的评论，使用重要的评论进行建模，而不是平等对待所有的评论。（区别于attention机制，MPCN是将不重要的评论删除，而不是赋予一个较小的权值。但是我认为两者差别并不大，当attention的对于某条评论的权重接近0的时候，该评论近似于被删除）

假设样本对（usera，itemb），usera对应的reviews为 $a=\{a_1,a_2...a_{n1}\}$ ，itmeb的reviews为 $b=\{b_1,b_2...b_{n2}\}$ 。

对于user的一条评论 $a_i$ 和item的一条评论 $b_j$ 和首先通过嵌入层得到每个词的词向量，然后通过一个门控机制得到过滤后的 $a_i$ 和 $b_j$ ，门控机制是对信息进行第一步过滤（感觉此处作用甚微）。
review-level Co- Attention：

将过滤后的a和b进入review-level Co-attention，我认为此处是一个交叉注意力机制。

$s_{ij}=F(a_i)^TMF(b_j)$ ，F是一个FC网络，其中 $a_i \in R^{lr \times d }$ ， $b_j \in R^{lr \times d}$ ，其中 $l r$ 表示review的补齐后的长度， $d$ 是词向量维度。

然后利用 s 对 $a$ ， $b$ 进行注意力池化。

$a'=(G(max_{col}(s)))^Ta$ ， $b'=(G(max_{row}(s)))^Tb$

文中对该步骤的解释是通过user和itme的review之间的交互，为user和item 各挑选出最有用的一条评论 $a'\in R^{lr \times d }$ ， $b'\in R^{lr \times d }$ ，因为max的操作是不可微的，因此采用Gumbel-Max技巧处理。
Word-level Co-Attention：

通过review-level Co-Attention可以得到 $a^{'}, b^{'}$ ，接下来使用相似的方法进行word-level Co-Attention。

$w_{ij}=F(a'_i)M_wF(b'_j)$ ， $w_{ij}$ 表示字符 $a'_i$ 和字符 $b'_j$ 的关系.。

$a'' = (S(avg_{col}(w)))^Ta'$ ， $b'' = (S(avg_{row}(w)))^Tb'$

$a^{''} 和 b^{''}$ 表示了进行交叉注意力后的review的表示。
上面的review-level 和word-level Co-attention是为了解决噪声评论的影响，利用硬指针的思想选出最重要的一对评论，但是一对评论可能无法包含用户所有的信息，因此我们使用多指针，也就是利用多个指针选择多对评论，然后将这些指针选择的评论的信息进行融合。

优势：认为不同的评论的重要性不同，不同的字的重要性不同，所以首先选择重要的评论，然后选择重要的字，使用重要的元素进行建模。

劣势：选择重要的评论和字，思想和Attention机制一样，实现过程和Attention相差不多。

Narre

题目：Neural Attentional Rating Regression with Review-level Explanations

论文地址：https://dl.acm.org/doi/abs/10.1145/3178876.3186070

在这里插入图片描述

Narre 和MPCN的主要思想是一致的，都认为评论的重要性是不同的，应该让模型能区分不同评论的重要性，所以采用了attention机制。

假设样本（useri，itemj）

对于useri的所有评论，将useri的每条评论经过CNN，得到每条评论的特征，然后将这些特征经过一个注意力层，计算每条评论的重要性（权重），然后计算这些评论的特征向量的加权和，该结果作为useri的特征向量。

权重 $a_{il}$ 计算，表示user_i的第l条评论的权重：

$a^*_{il}=h^TReLU(W_OO_{il}+W_uu_{il}+b1)+b_2$

$a_{il} = \frac {exp(a^*_{il})}{\sum_{l=0}^{k}exp(a^*_{il})}$

评论的特征向量加权和，也就是用户Useri的特征向量：

$O_i=\sum_{l=1,..k}a_{il}O_{il}$
对于itemB，步骤相同，可以得到 $I_j$ 。user Modelling和item Modelling的参数不共享。
将得到 $O_i$ , $I_j$ 经过FM交互层预测最终得分。

优势：引入了常见的Attention机制。

劣势：user和item在形成特征向量的时候并没有发生交互，只在最后的预测层发生交互，因此形成的特征向量的质量应该还有提升空间。

NRPA

题目：NRPA: Neural Recommendation with Personalized Attention

论文地址：https://arxiv.org/pdf/1905.12480.pdf

NRPA同样使用了Attention机制，和Narre不同的是，NRPA在使用注意力机制的时候，加入了User ID的信息，文章认为，这是一种具有个性化关注的深度神经网络推荐方法，为不同user选择不同的重要词汇和重要review。

对于 $user_u$

对于 $user_u$ 的一条评论 $M_{u,i}=[w_1,...,w_T]$ ，经过CNN得到 $Z=[z_1,...,z_T]$ ，其中 $z_k$ 表示该review中第 k 个字的特征， $z_k \in R^{K \times 1}$
字级别的个性化关注机制，计算注意力权重，这里引入了用户的ID，然后求字向量的加权和。

$q_u^w = ReLU(W_1u_{id}+b1)$ ，这是一个全连接层。

$g_k=q_u^w A z_k$ ， $g_k$ 是一个标量。

$a_k = \frac {exp(g_k)}{\sum_{j=1}^T exp(g_j)}$ ， $a_k$ 表示第 k 个字的重要性。

$d_{u,i}=\sum_{j=1}^T a_j z_j$ ，得到该条评论的特征向量。
对 $user_u$ 所有的评论进行上述操作，可以得到该user的所有评论的特征 $D=[d_{u,1},...,d_{u,n}]$
评论级别的个性化关注机制，思路和评论级别的一致，首先使用用户ID计算 $g_k$ ，然后使用softmax求 $a_k$ ，最后求D中特征向量的加权和。