论文笔记CIRS

qq_53430308

已于 2022-08-07 16:44:11 修改

阅读量854

点赞数

文章标签：深度学习人工智能

于 2022-08-06 18:56:34 首次发布

本文链接：https://blog.csdn.net/qq_53430308/article/details/126197999

版权

论文介绍

题目：CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System

时间：2022.4

会议：ACM

第一作者：Chongming Gao University of Science and Technology of China

通讯作者：Xiangnan He University of Science and Technology of China

论文地址：https://arxiv.org/pdf/2204.01266.pdf

内容介绍

1.解决的问题：

While personalization increases the utility of recommender systems, it also brings the issue of filter bubbles .

个性化在增加了推荐系统的实用性的同时，也带来了过滤气泡的问题。

这里的filter bubbles也就是信息茧房，在这里就是指推荐系统过于个性化，一直给用户推荐他喜欢的物品，这样就会使用户接受到的信息有限，并且长期下来会使用户感到厌烦。

“Personalization filters serve up a kind of invisible autopropaganda, indoctrinating us with our own ideas, amplifying our desire for things that are familiar and leaving us oblivious to the dangers lurking in the dark territory of the unknown."

––Eli Pariser, The Filter Bubble [42]

这是提出信息茧房的作者说的一句话

这篇文章就是提出了一种模型来解决信息茧房问题。

2.提出的模型

作者认为信息茧房和过度暴露效应有关，并且将用户的满意度建模为用户的内在兴趣和过度暴露效应。

因此提出了以下模型：

To achieve this goal, we propose a counterfactual interactive recommender system (CIRS) that augments offline reinforcement learning (offline RL) with causal inference.

为了实现这一目标，我们提出了一个反事实交互式推荐系统(CIRS)，该系统通过因果推理来增强离线强化学习(离线RL)。

这是提出的模型的框架图，他包括三个阶段：1.Pre-learning-预学习阶段，2.RL Planning-强化学习阶段，3.RL Evaluation-强化学习评估阶段。

其中每个阶段具体如下：

1.Pre-learning-预学习阶段

这个阶段是学习因果用户模型 $\phi _{M}$ ，他的作用是基于历史数据学习用户兴趣，并为RL Planning阶段提供反事实满意度𝑟，通过正确地建模项目过度暴露对用户满意度的影响来明确地解开因果效应，这个模型也是文章创新性的提出的。

其中 $\phi _{M}$ 又包含两个模块，一个是用于计算用户内在兴趣𝑦的兴趣估计模块，另一个是反事实满意度估计模块，捕捉过度暴露效应如何影响用户满意度𝑟。

这是传统推荐的因果图和本文模型的因果图，传统推荐认为用户的满意度R和用户的内在兴趣有关也即图中的Y，而本模型将过度暴露效应假如了其中。

接下来就要对Y,R,Et进行建模。

首先是Y表示为：

$\hat{y}_{ui}=f_{\theta }(u,i)$

其中 $f_{\theta }(u,i)$ 通过DeepFM模型来实现。

然后对过度暴露效应Et表示为：

他包含了t时刻之前的所有物品的累加值。

然后R就表示为：

然后通过最小化目标函数就可以训练 $\phi _{M}$ 模型，目标函数为：

2.RL Planning-强化学习阶段

这一步是为了得到强化学习的策略 $\pi_{\theta }$ ，他的作用是上线推荐模型，是通过PPO算法来实现的，通过最大化PPO算法的目标函数：

因为在 $\phi _{M}$ 与 $\pi_{\theta }$ 进行交互时过度暴露效应𝑒𝑡∗现在与学习前阶段的𝑒𝑡不同。因此需要重新定义为：

这时的et包括的是新交互的物品序列。

用户满意度也被定义为：

然后利用估计的反事实满意度作为奖励信号，通过优化上面的目标函数就可以得到 $\pi_{\theta }$ 。

此外还要说明图中的State Tracker.模块，他是基于transformer实现的，他提供了状态st的表示。其中st包括了用户的表示向量eu和最近推荐的项目的特征向量，这包括项目本身eat和反馈rt。

其中：

$e_{a_{t}}^{'}=g_{t}\odot e_{a_{t}}$

用户向量通过前馈网络FFN，映射到和 $e^{'}_{a_{t}}$ 同一空间中。

3.RL Evaluation-强化学习评估阶段

这里使用了虚拟淘宝和快手两个环境进行评估，虚拟淘宝是模仿淘宝中用户的真实行为而创建的，而快手的数据是真实世界的。

如何进行评测是一个难题，在上面参考文章的第二篇作者做了解释，主要点在于提出了一种感到无聊然后退出的机制，如下：

然后是对实验结果的部分解读：

其中复现的代码的实验结果放在了：

链接：https://pan.baidu.com/s/1cnzHJRQP6DzvdFYcnsY1bw
提取码：mydc

qq_53430308

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
论文笔记CIRS

个性化在增加了推荐系统的实用性的同时，也带来了过滤气泡的问题。这里的filter bubbles也就是信息茧房，在这里就是指推荐系统过于个性化，一直给用户推荐他喜欢的物品，这样就会使用户接受到的信息有限，并且长期下来会使用户感到厌烦。这是提出信息茧房的作者说的一句话这篇文章就是提出了一种模型来解决信息茧房问题。2.提出的模型作者认为信息茧房和过度暴露效应有关，并且将用户的满意度建模为用户的内在兴趣和过度暴露效应。......
复制链接

扫一扫