星星不想醒-CSDN博客

原创讲个故事3.0

每个元素代表的含义如下：user_active_degree（用户活跃程度）：0表示低度活跃 1表示中度活跃 2表示高度活跃is_live_streamer（是否为直播主播）：1表示是直播主播 0表示不是直播主播is_video_author（是否是视频作者）：1表示是视频作者 0表示不是视频作者。

2024-08-20 14:56:56 954

原创《Alleviating Matthew Effect of Offline Reinforcement Learning Interactive Recommendation》笔记6.0

熵惩罚项不依赖于选择的动作，而只依赖于所处的状态。这意味着这种惩罚的效果将是间接的，并且考虑长期优化会惩罚导致较少多样状态的动作。因此，学习到的策略在离线数据中实现了反事实的探索，从而抵消了离线强化学习中的马太效应。

2024-06-27 10:12:06 214

本文图片和内容部分引用于写Bug那些事该大佬博客，更为细致的讲解请查看该博客，链接如下：强化学习入门这一篇就够了！！！万字长文-CSDN博客state可以理解成状态(环境状态)。在YouTube中刷视频时，我们可以认为state是用户在面对视频时，用户的信息（如用户的观看历史和用户的年龄性别等）和当前视频的信息（如视频所属类别和视频的创作者等）等。state也可以简单理解为当前的画面（当然这并不准确但是方便理解）。用户面对该视频所做的动作就是action。假设用户会做4个动作：点赞、点击不喜欢、评论、和分享

2024-06-05 20:07:19 630

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记5.0

预测得分计算：首先，通过计算用户u对物品i和物品j的预测得分来衡量用户对物品的偏好程度。预测得分是通过用户u的潜在因子向量和物品i、物品j的潜在因子向量之间的内积得到的，即score(u,i) = wu • hi和score(u,j) = wu • hj。由论文中对MCD的定义处的注释4知：主导类别要求覆盖训练集中80%的物品，在KuaiRand的46个类别中主导类别有13个，在KuaiRec的31个类别中主导类别有12个.表示用户u对物品i和物品j的偏好，其中，u对i的偏好大于u对j的偏好。

2024-05-29 21:21:45 610

原创 [成功解决]tensorflow.python.framework.errors_impl.FailedPreconditionError: logs is not a directory

本来我的总文件名称为：“”代码文件“”，一直报 logs is not a directory ，①后报错。②将代码文件的文件夹名称改为全英文并换了个盘（也是英文的）存放全部文件。①logs的路径改为绝对路径。②后不报错了，可以正常运行。

2024-04-21 10:27:49 606 1

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0（1）

从上至下，所示类别占据主导地位的强度逐渐下降，也就是说，类别28的主导性最强。也可以理解为，用户观看类别28的视频对最有利于获得更好的结果（比如对应的观看时长更长等）。最后，再次编译 ensemble_models （利用.compile_RL_test()方法）为其设置评估函数。继续获取真实环境env，环境任务类env_task_class(未返回)和其他参数kwargs_um。其中，loss_func的‘args’的具体为。以user_model的第一行为例，对 user_model 的解释。

2024-04-20 16:59:09 869

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0（2）

我们固定了参数 `b` 的值为 `5`，并将参数 `c` 的默认值设置为 `0`。这样，`add5` 函数就只需要一个参数 `a`，它会将 `a` 与 `5` 相加并返回结果。如果我们想要创建一个新的函数 `add5(x)`，它会将参数 `x` 与数字 `5` 相加，可以使用部分应用函数来实现。在提供的代码中，`functools.partial` 用于创建一个部分应用的函数 `save_model_fn`，其中固定了一部分参数，使得调用时只需要传递剩余的参数即可。代码正常运行至第4步学习策略。

2024-04-20 16:58:46 361

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记3.0

目录一、论文解析（源于机器翻译）4.关于强化学习（Reinforcement Learning，RL）的基础知识4.1强化学习基础4.2基于模型的离线RL框架5. 方法5.1解决方案：推荐中基于模型的强化学习5.2马太效应5.3 解决方案：重新设计惩罚项5.4 DORL方法6. 实验6.1 实验设置6.1.1 推荐环境。6.1.2 基线。6.2 整体性能比较（RQ1）6.3 减轻马太效应的结果（RQ2）6.4 不同环境的结果（RQ3）7

2024-04-20 16:58:06 756

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记2.0

生成了DeepFM文件夹，执行完成后在save_models的CoatEnv-v0环境文件夹下生成了DeepFM文件夹。生成了DeepFM文件夹，执行完成后在save_models的KuaiEnv-v0环境文件夹下生成了DeepFM文件夹。此博客和开头所提的链接为重现论文中的图7所进行的工作，该部分代码也在下图所示的文件中。生成了log文件，在KuaiEnv-v0下的A2C_with_emb的logs中。生成了BCQ文件夹，并将日志文件保存在了在文件夹下的logs文件夹中。运行DORL（论文中提出的方法）

2024-03-19 17:31:44 741 1

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记

有些指令在执行时会先创建文件夹，以便存放后续生成的日志文件或者是其他文件，第1、2、3、4、5条和第6条指令都有创建文件夹的操作。此处的connect……（2）（3）（4）代表的是第一部分四条指令中的第几条指令。依旧因为设备问题（仅开了一个单个GPU的4090，很贵），此处在真正测试时使用的是。因为设备问题（仅开了一个单个GPU的4090，很贵），此处在真正测试时使用的是。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。

2024-03-19 17:31:40 594

m0_67197896的博客

原创讲个故事3.0

原创讲个故事2.0

原创讲个故事1.0

原创《Alleviating Matthew Effect of Offline Reinforcement Learning Interactive Recommendation》笔记6.0

原创强化学习笔记

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记5.0

原创 [成功解决]tensorflow.python.framework.errors_impl.FailedPreconditionError: logs is not a directory

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0（1）

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0（2）

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记3.0

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记2.0

原创《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记

原创 Inter校企合作淡水质量预测

原创 Inter校企合作猫狗大战

原创 wps文档排版之公式的应用

空空如也

空空如也