论文笔记CIRS

论文介绍

题目:CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System

时间:2022.4

会议:ACM

第一作者:Chongming Gao University of Science and Technology of China

通讯作者:Xiangnan He University of Science and Technology of China

论文地址:https://arxiv.org/pdf/2204.01266.pdf

相关参考资料:CIRS: Bursting Filter Bubbles by Counterfactual Interactive Recommender System 代码解析(超详细噢…φ(๑˃∀˂๑)♪ ) - 知乎

【深度剖析】聊一聊推荐系统中的信息茧房问题——因果强化学习在交互式推荐的前沿探索 - 知乎

内容介绍

1.解决的问题:

While personalization increases the utility of recommender systems, it also brings the issue of filter bubbles .
个性化在增加了推荐系统的实用性的同时,也带来了过滤气泡的问题。

这里的filter bubbles也就是信息茧房,在这里就是指推荐系统过于个性化,一直给用户推荐他喜欢的物品,这样就会使用户接受到的信息有限,并且长期下来会使用户感到厌烦。

“Personalization filters serve up a kind of invisible autopropaganda, indoctrinating us with our own ideas, amplifying our desire for things that are familiar and leaving us oblivious to the dangers lurking in the dark territory of the unknown."

––Eli Pariser, The Filter Bubble [42]

这是提出信息茧房的作者说的一句话

这篇文章就是提出了一种模型来解决信息茧房问题。

2.提出的模型

作者认为信息茧房和过度暴露效应有关,并且将用户的满意度建模为用户的内在兴趣和过度暴露效应。

因此提出了以下模型:

To achieve this goal, we propose a counterfactual interactive recommender system (CIRS) that augments offline reinforcement learning (offline RL) with causal inference.

为了实现这一目标,我们提出了一个反事实交互式推荐系统(CIRS),该系统通过因果推理来增强离线强化学习(离线RL)。

 这是提出的模型的框架图,他包括三个阶段:1.Pre-learning-预学习阶段,2.RL Planning-强化学习阶段,3.RL Evaluation-强化学习评估阶段。

其中每个阶段具体如下:

1.Pre-learning-预学习阶段

这个阶段是学习因果用户模型\phi _{M},他的作用是基于历史数据学习用户兴趣,并为RL Planning阶段提供反事实满意度𝑟,通过正确地建模项目过度暴露对用户满意度的影响来明确地解开因果效应,这个模型也是文章创新性的提出的。

其中\phi _{M}又包含两个模块,一个是用于计算用户内在兴趣𝑦的兴趣估计模块,另一个是反事实满意度估计模块,捕捉过度暴露效应如何影响用户满意度𝑟。

 这是传统推荐的因果图和本文模型的因果图,传统推荐认为用户的满意度R和用户的内在兴趣有关也即图中的Y,而本模型将过度暴露效应假如了其中。

接下来就要对Y,R,Et进行建模。

首先是Y表示为:

\hat{y}_{ui}=f_{\theta }(u,i)

其中f_{\theta }(u,i)通过DeepFM模型来实现。

然后对过度暴露效应Et表示为:

 他包含了t时刻之前的所有物品的累加值。

然后R就表示为:

 然后通过最小化目标函数就可以训练\phi _{M}模型,目标函数为:

 2.RL Planning-强化学习阶段

 这一步是为了得到强化学习的策略\pi_{\theta },他的作用是上线推荐模型,是通过PPO算法来实现的,通过最大化PPO算法的目标函数:

 因为在\phi _{M}\pi_{\theta }进行交互时过度暴露效应𝑒𝑡∗现在与学习前阶段的𝑒𝑡不同。因此需要重新定义为:

 这时的et包括的是新交互的物品序列。

用户满意度也被定义为:

 然后利用估计的反事实满意度作为奖励信号,通过优化上面的目标函数就可以得到\pi_{\theta }

此外还要说明图中的State Tracker.模块,他是基于transformer实现的,他提供了状态st的表示。其中st包括了用户的表示向量eu和最近推荐的项目的特征向量,这包括项目本身eat和反馈rt。

其中:

e_{a_{t}}^{'}=g_{t}\odot e_{a_{t}}

 用户向量通过前馈网络FFN,映射到和e^{'}_{a_{t}}同一空间中。

3.RL Evaluation-强化学习评估阶段

这里使用了虚拟淘宝和快手两个环境进行评估,虚拟淘宝是模仿淘宝中用户的真实行为而创建的,而快手的数据是真实世界的。

如何进行评测是一个难题,在上面参考文章的第二篇作者做了解释,主要点在于提出了一种感到无聊然后退出的机制,如下:

然后是对实验结果的部分解读:

其中复现的代码的实验结果放在了:

链接:https://pan.baidu.com/s/1cnzHJRQP6DzvdFYcnsY1bw 
提取码:mydc

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Unlike the classical encryption schemes,keys are dispensable in certain PLS technigues, known as the keyless secure strat egy. Sophisticated signal processing techniques such as arti- ficial noise, beamforming,and diversitycan be developed to ensure the secrecy of the MC networks.In the Alice-Bob-Eve model, Alice is the legitimate transmitter, whose intended target is the legitimate receiver Bob,while Eve is the eavesdropper that intercepts the information from Alice to Bob.The secrecy performance is quantified via information leakagei.ethe dif ference of the mutual information between the Alice-Bob and Alice-Eve links. The upper bound of the information leakage is called secrecy capacity realized by a specific distribution of the input symbols, namely,capacity-achieving distribution.The secrecy performance of the diffusion-based MC system with concentration shift keying(CSK)is analyzed from an informa- tion-theoretical point of view,providing two paramount secrecy metrics, i.e., secrecy capacity and secure distance[13].How ever, only the estimation of lower bound secrecy capacity is derived as both links attain their channel capacity.The secrecy capacity highly depends on the system parameters such as the average signal energy,diffusion coefficientand reception duration. Moreover, the distance between the transmitter and the eavesdropper is also an important aspect of secrecy per- formance. For both amplitude and energy detection schemes secure distance is proposed as a secret metricover which the eavesdropper is incapable of signal recovery. Despite the case with CSK,the results of the secure metrics vary with the modulation type(e.g.pulse position,spacetype) and reception mechanism(e.g.passive,partially absorbingper fectly absorbing).For ease of understanding,Figure 3 depicts the modulation types and the corresponding CIRs with different reception mechanisms. Novel signa processing techniques and the biochemical channel properties can further assist the secrecy enhancement in the MC system.The molecular beam forming that avoids information disclosure can be realized via the flow generated in the channel.Besidesnew dimensions of diversity, such as the aforementioned molecular diversity of ionic compounds, can beexploited. Note that the feasibility of these methods can be validated by the derived secrecy metrics.
06-13

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值