《Alleviating Matthew Effect of Offline Reinforcement Learning Interactive Recommendation》笔记6.0

一、论文中 5  METHOD 的笔记

1.1 5.1 Model-based RL in Recommendation

1.2 5.2 Matthew Effect

1.3 5.3 Solution: Re-design the Penalty

熵惩罚项不依赖于选择的动作,而只依赖于所处的状态。这意味着这种惩罚的效果将是间接的,并且考虑长期优化会惩罚导致较少多样状态的动作。因此,学习到的策略在离线数据中实现了反事实的探索,从而抵消了离线强化学习中的马太效应。

1.4  5.4 The DORL Method

Figure 5显示了交互过程的轨迹。其中时间 t 的当前动作是推荐视频8,上一时间 t-1 的动作是推荐视频3……。我们在公式(9)中定义PE为k阶熵(k = 1, 2, · · · )的总和。例如,当k = 3时(代码中k==3),搜索所有用户的推荐日志,收集具有[{3, 7, 8}, ?]的所有连续子序列,其中"?"可以匹配任何视频,{3, 7, 8}是一个排序集合,可以包括它的所有枚举,例如[8, 3, 7]或[7, 3, 8]。在这些子序列上,我们可以计算动作"?"的频率,从而估计给定前三个推荐视频的行为策略𝜋𝛽的熵。为了不失一般性,我们将熵归一化到(0,1]范围内。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值