论文阅读
文章平均质量分 85
对论文《Alleviating Matthew Effect of Offline Reinforcement Learning
in Interactive Recommendation》的复现工作
‘’梦开始的地方‘’
星星不想醒
请说计算机的语言,不要说文科生的话
展开
-
讲个故事3.0
每个元素代表的含义如下:user_active_degree(用户活跃程度):0表示低度活跃 1表示中度活跃 2表示高度活跃is_live_streamer(是否为直播主播):1表示是直播主播 0表示不是直播主播is_video_author(是否是视频作者):1表示是视频作者 0表示不是视频作者。原创 2024-08-20 14:56:56 · 961 阅读 · 0 评论 -
讲个故事2.0
。原创 2024-08-05 18:07:51 · 609 阅读 · 0 评论 -
《Alleviating Matthew Effect of Offline Reinforcement Learning Interactive Recommendation》笔记6.0
熵惩罚项不依赖于选择的动作,而只依赖于所处的状态。这意味着这种惩罚的效果将是间接的,并且考虑长期优化会惩罚导致较少多样状态的动作。因此,学习到的策略在离线数据中实现了反事实的探索,从而抵消了离线强化学习中的马太效应。原创 2024-06-27 10:12:06 · 223 阅读 · 0 评论 -
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记
有些指令在执行时会先创建文件夹,以便存放后续生成的日志文件或者是其他文件,第1、2、3、4、5条和第6条指令都有创建文件夹的操作。此处的connect……(2)(3)(4)代表的是第一部分四条指令中的第几条指令。依旧因为设备问题(仅开了一个单个GPU的4090,很贵),此处在真正测试时使用的是。因为设备问题(仅开了一个单个GPU的4090,很贵),此处在真正测试时使用的是。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。原创 2024-03-19 17:31:40 · 607 阅读 · 0 评论 -
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记3.0
目录一、论文解析(源于机器翻译)4.关于强化学习(Reinforcement Learning,RL)的基础知识4.1强化学习基础4.2基于模型的离线RL框架5. 方法5.1解决方案:推荐中基于模型的强化学习5.2马太效应5.3 解决方案:重新设计惩罚项5.4 DORL方法6. 实验6.1 实验设置6.1.1 推荐环境。6.1.2 基线。6.2 整体性能比较(RQ1)6.3 减轻马太效应的结果(RQ2)6.4 不同环境的结果(RQ3)7原创 2024-04-20 16:58:06 · 783 阅读 · 0 评论 -
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0(1)
从上至下,所示类别占据主导地位的强度逐渐下降,也就是说,类别28的主导性最强。也可以理解为,用户观看类别28的视频对最有利于获得更好的结果(比如对应的观看时长更长等)。最后,再次编译 ensemble_models (利用.compile_RL_test()方法)为其设置评估函数。继续获取真实环境env,环境任务类env_task_class(未返回)和其他参数kwargs_um。其中,loss_func的‘args’的具体为。以user_model的第一行为例,对 user_model 的解释。原创 2024-04-20 16:59:09 · 911 阅读 · 0 评论 -
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记2.0
生成了DeepFM文件夹,执行完成后在save_models的CoatEnv-v0环境文件夹下生成了DeepFM文件夹。生成了DeepFM文件夹,执行完成后在save_models的KuaiEnv-v0环境文件夹下生成了DeepFM文件夹。此博客和开头所提的链接为重现论文中的图7所进行的工作,该部分代码也在下图所示的文件中。生成了log文件,在KuaiEnv-v0下的A2C_with_emb的logs中。生成了BCQ文件夹,并将日志文件保存在了在文件夹下的logs文件夹中。运行DORL(论文中提出的方法)原创 2024-03-19 17:31:44 · 751 阅读 · 1 评论 -
《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0(2)
我们固定了参数 `b` 的值为 `5`,并将参数 `c` 的默认值设置为 `0`。这样,`add5` 函数就只需要一个参数 `a`,它会将 `a` 与 `5` 相加并返回结果。如果我们想要创建一个新的函数 `add5(x)`,它会将参数 `x` 与数字 `5` 相加,可以使用部分应用函数来实现。在提供的代码中,`functools.partial` 用于创建一个部分应用的函数 `save_model_fn`,其中固定了一部分参数,使得调用时只需要传递剩余的参数即可。代码正常运行至第4步学习策略。原创 2024-04-20 16:58:46 · 366 阅读 · 0 评论