自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 讲个故事2.0

​。

2024-08-05 18:07:51 579

原创 讲个故事1.0

​。

2024-07-17 16:19:05 780

原创 《Alleviating Matthew Effect of Offline Reinforcement Learning Interactive Recommendation》笔记6.0

熵惩罚项不依赖于选择的动作,而只依赖于所处的状态。这意味着这种惩罚的效果将是间接的,并且考虑长期优化会惩罚导致较少多样状态的动作。因此,学习到的策略在离线数据中实现了反事实的探索,从而抵消了离线强化学习中的马太效应。

2024-06-27 10:12:06 208

原创 强化学习笔记

本文图片和内容部分引用于写Bug那些事该大佬博客,更为细致的讲解请查看该博客,链接如下:强化学习入门这一篇就够了!!!万字长文-CSDN博客state可以理解成状态(环境状态)。在YouTube中刷视频时,我们可以认为state是用户在面对视频时,用户的信息(如用户的观看历史和用户的年龄性别等)和当前视频的信息(如视频所属类别和视频的创作者等)等。state也可以简单理解为当前的画面(当然这并不准确但是方便理解)。用户面对该视频所做的动作就是action。假设用户会做4个动作:点赞、点击不喜欢、评论、和分享

2024-06-05 20:07:19 626

原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记5.0

预测得分计算:首先,通过计算用户u对物品i和物品j的预测得分来衡量用户对物品的偏好程度。预测得分是通过用户u的潜在因子向量和物品i、物品j的潜在因子向量之间的内积得到的,即score(u,i) = wu • hi和score(u,j) = wu • hj。由论文中对MCD的定义处的注释4知:主导类别要求覆盖训练集中80%的物品,在KuaiRand的46个类别中主导类别有13个,在KuaiRec的31个类别中主导类别有12个.表示用户u对物品i和物品j的偏好,其中,u对i的偏好大于u对j的偏好。

2024-05-29 21:21:45 602

原创 [成功解决]tensorflow.python.framework.errors_impl.FailedPreconditionError: logs is not a directory

本来我的总文件名称为:“”代码文件“”,一直报 logs is not a directory ,①后报错。②将代码文件的文件夹名称改为全英文并换了个盘(也是英文的)存放全部文件。①logs的路径改为绝对路径。②后不报错了,可以正常运行。

2024-04-21 10:27:49 598 1

原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0(1)

从上至下,所示类别占据主导地位的强度逐渐下降,也就是说,类别28的主导性最强。也可以理解为,用户观看类别28的视频对最有利于获得更好的结果(比如对应的观看时长更长等)。最后,再次编译 ensemble_models (利用.compile_RL_test()方法)为其设置评估函数。继续获取真实环境env,环境任务类env_task_class(未返回)和其他参数kwargs_um。其中,loss_func的‘args’的具体为。以user_model的第一行为例,对 user_model 的解释。

2024-04-20 16:59:09 849

原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记4.0(2)

我们固定了参数 `b` 的值为 `5`,并将参数 `c` 的默认值设置为 `0`。这样,`add5` 函数就只需要一个参数 `a`,它会将 `a` 与 `5` 相加并返回结果。如果我们想要创建一个新的函数 `add5(x)`,它会将参数 `x` 与数字 `5` 相加,可以使用部分应用函数来实现。在提供的代码中,`functools.partial` 用于创建一个部分应用的函数 `save_model_fn`,其中固定了一部分参数,使得调用时只需要传递剩余的参数即可。代码正常运行至第4步学习策略。

2024-04-20 16:58:46 360

原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》笔记3.0

目录一、论文解析(源于机器翻译)4.关于强化学习(Reinforcement Learning,RL)的基础知识4.1强化学习基础4.2基于模型的离线RL框架5. 方法5.1解决方案:推荐中基于模型的强化学习5.2马太效应5.3 解决方案:重新设计惩罚项5.4 DORL方法6. 实验6.1 实验设置6.1.1 推荐环境。6.1.2 基线。6.2 整体性能比较(RQ1)6.3 减轻马太效应的结果(RQ2)6.4 不同环境的结果(RQ3)7

2024-04-20 16:58:06 753

原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记2.0

生成了DeepFM文件夹,执行完成后在save_models的CoatEnv-v0环境文件夹下生成了DeepFM文件夹。生成了DeepFM文件夹,执行完成后在save_models的KuaiEnv-v0环境文件夹下生成了DeepFM文件夹。此博客和开头所提的链接为重现论文中的图7所进行的工作,该部分代码也在下图所示的文件中。生成了log文件,在KuaiEnv-v0下的A2C_with_emb的logs中。生成了BCQ文件夹,并将日志文件保存在了在文件夹下的logs文件夹中。运行DORL(论文中提出的方法)

2024-03-19 17:31:44 733 1

原创 《Alleviating Matthew Effect of Offline Reinforcement Learningin Interactive Recommendation》代码复现笔记

有些指令在执行时会先创建文件夹,以便存放后续生成的日志文件或者是其他文件,第1、2、3、4、5条和第6条指令都有创建文件夹的操作。此处的connect……(2)(3)(4)代表的是第一部分四条指令中的第几条指令。依旧因为设备问题(仅开了一个单个GPU的4090,很贵),此处在真正测试时使用的是。因为设备问题(仅开了一个单个GPU的4090,很贵),此处在真正测试时使用的是。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。下面分别是第1 2 3 4条指令执行完成后的截图以及其产生的文件。

2024-03-19 17:31:40 590

原创 Inter校企合作 淡水质量预测

gamma=0,objective='binary:logistic', # 二元分类的逻辑回归,输出概率nthread=4,alpha=4,seed=27)本模型使用XGBoost,并使用随机网格搜索进行优化,经过10次训练 ,f1分数在0.94左右 ,准确性较高.通过使用Intel oneAPI组件中的daal4py进行加速,使得训练所需时间减少至40分钟以内.所需时间较短,准确性较高.

2024-02-26 19:40:30 525

原创 Inter校企合作 猫狗大战

inter 校企合作 猫狗大战

2024-01-14 16:15:52 878

原创 wps文档排版之公式的应用

wps修改公式字体 实现公式复制粘贴

2023-05-23 11:09:13 772 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除