论文阅读_星星不想醒的博客-CSDN博客

论文阅读

关注

文章平均质量分 85

对论文《Alleviating Matthew Effect of Offline Reinforcement Learning in Interactive Recommendation》的复现工作 ‘’梦开始的地方‘’

关注数：文章数：8 文章阅读量：5211 文章收藏量：129

作者: 星星不想醒

请说计算机的语言，不要说文科生的话

展开

讲个故事3.0

每个元素代表的含义如下：user_active_degree（用户活跃程度）：0表示低度活跃 1表示中度活跃 2表示高度活跃is_live_streamer（是否为直播主播）：1表示是直播主播 0表示不是直播主播is_video_author（是否是视频作者）：1表示是视频作者 0表示不是视频作者。

原创 2024-08-20 14:56:56 · 961 阅读 · 0 评论
讲个故事2.0

。

原创 2024-08-05 18:07:51 · 609 阅读 · 0 评论
《Alleviating Matthew Effect of Offline Reinforcement Learning Interactive Recommendation》笔记6.0

熵惩罚项不依赖于选择的动作，而只依赖于所处的状态。这意味着这种惩罚的效果将是间接的，并且考虑长期优化会惩罚导致较少多样状态的动作。因此，学习到的策略在离线数据中实现了反事实的探索，从而抵消了离线强化学习中的马太效应。

原创 2024-06-27 10:12:06 · 223 阅读 · 0 评论
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记

有些指令在执行时会先创建文件夹，以便存放后续生成的日志文件或者是其他文件，第1、2、3、4、5条和第6条指令都有创建文件夹的操作。此处的connect……（2）（3）（4）代表的是第一部分四条指令中的第几条指令。依旧因为设备问题（仅开了一个单个GPU的4090，很贵），此处在真正测试时使用的是。因为设备问题（仅开了一个单个GPU的4090，很贵），此处在真正测试时使用的是。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。

原创 2024-03-19 17:31:40 · 607 阅读 · 0 评论
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记3.0

目录一、论文解析（源于机器翻译）4.关于强化学习（Reinforcement Learning，RL）的基础知识4.1强化学习基础4.2基于模型的离线RL框架5. 方法5.1解决方案：推荐中基于模型的强化学习5.2马太效应5.3 解决方案：重新设计惩罚项5.4 DORL方法6. 实验6.1 实验设置6.1.1 推荐环境。6.1.2 基线。6.2 整体性能比较（RQ1）6.3 减轻马太效应的结果（RQ2）6.4 不同环境的结果（RQ3）7

原创 2024-04-20 16:58:06 · 783 阅读 · 0 评论
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0（1）

从上至下，所示类别占据主导地位的强度逐渐下降，也就是说，类别28的主导性最强。也可以理解为，用户观看类别28的视频对最有利于获得更好的结果（比如对应的观看时长更长等）。最后，再次编译 ensemble_models （利用.compile_RL_test()方法）为其设置评估函数。继续获取真实环境env，环境任务类env_task_class(未返回)和其他参数kwargs_um。其中，loss_func的‘args’的具体为。以user_model的第一行为例，对 user_model 的解释。

原创 2024-04-20 16:59:09 · 911 阅读 · 0 评论
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记2.0

生成了DeepFM文件夹，执行完成后在save_models的CoatEnv-v0环境文件夹下生成了DeepFM文件夹。生成了DeepFM文件夹，执行完成后在save_models的KuaiEnv-v0环境文件夹下生成了DeepFM文件夹。此博客和开头所提的链接为重现论文中的图7所进行的工作，该部分代码也在下图所示的文件中。生成了log文件，在KuaiEnv-v0下的A2C_with_emb的logs中。生成了BCQ文件夹，并将日志文件保存在了在文件夹下的logs文件夹中。运行DORL（论文中提出的方法）

原创 2024-03-19 17:31:44 · 751 阅读 · 1 评论
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0（2）

我们固定了参数 `b` 的值为 `5`，并将参数 `c` 的默认值设置为 `0`。这样，`add5` 函数就只需要一个参数 `a`，它会将 `a` 与 `5` 相加并返回结果。如果我们想要创建一个新的函数 `add5(x)`，它会将参数 `x` 与数字 `5` 相加，可以使用部分应用函数来实现。在提供的代码中，`functools.partial` 用于创建一个部分应用的函数 `save_model_fn`，其中固定了一部分参数，使得调用时只需要传递剩余的参数即可。代码正常运行至第4步学习策略。

原创 2024-04-20 16:58:46 · 366 阅读 · 0 评论

论文阅读

作者: 星星不想醒

讲个故事3.0

讲个故事2.0

《Alleviating Matthew Effect of Offline Reinforcement Learning Interactive Recommendation》笔记6.0

《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记

《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记3.0

《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0（1）

《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记2.0

《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0（2）