推荐系统公平性论文阅读(四)

接下来我总共花了将近四天时间才将论文《Towards Long-term Fairness in Recommendation》[1]理解透彻。因为该论文用到了强化学习(Reinforcement Learning),而强化学习不像之前的生成对抗网络(GAN)一样简洁明了,涉及的数学知识非常多。
在看论文之前我花费了很所时间去补强化学习的基础,其中牵涉到的知识点还包括随机过程、数值优化等,因此我在掌握文章背景上就耗费了很多时间和精力。
不过当我将强化学习的背景搞清楚后,整片文章读起来的速度就大大加快了,因为该文章本质上就是在强化学习的策略优化算法(论文采用的的是经典的置信域优化算法)的基础上加一个公平性约束而已。我我自身理解的基础上,对该论文的结构和核心思想进行了模块化地详细地梳理,而这篇日志也就是我记录的梳理论文思想的心路历程。

论文创新点

该论文有三个要点:
其一是视角独到,在基于强化学习的推荐系统框架上建模,可以保证长期的公平性问题,而不是像大多数论文一样只保证短期的公平性;
其二是将公平性约束做为强化学习中著名的置信域优化算法的一个约束项来处理,简洁明了;
其三是公平性约束是线性的,对于模型的参数优化能求得解析解,这样可以大大降低算法的时间复杂度。

背景知识储备

首先,我通过阅读强化学习的经典著作《Reinforcement learning: An introduction》[2]对强化学习中的许多基本概念有了初步的认知。强化学习的关键思想是马尔可夫决策过程(Markov Decision Processes, MDPs)。一个MDP可以用一个元组\(M=(\mathcal{S}, \mathcal{A},\mathcal{P}, \mathcal{R}, \mu , \gamma )\)来表示,这\(\mathcal{S}\)表示\(n\)个状态\(s\)的集合。\(A\)表示\(m\)个动作\(a\)的集合,\(\mathcal{P}: \mathcal{S}\times \mathcal{A} \times \mathcal{S} \to [0,1]\)表示状态转移函数。对于在经过动作\(a_{t}\)后,由状态\(s_{t}\)转移为状态\(s_{t+1}\)的概率我们可以表示为\(P(s_{t+1}|s_{t}, a_{t})\)\(\mathcal{R}:\mathcal{S} \times \mathcal{A} \times \mathcal{S} \to \mathbb{R}\)。我们将做出动作\(a_{t}\)后,由状态\(s_{t}\)转移到状态\(s_{t+1}\)而触发的奖励记作\(r(s_{t}, a_{t}, s_{t+1})\)\(\mu: \mathcal{S} \to [0, 1]\)是一个初始状态分布。\(\gamma \in [0, 1)\)是折扣因子。一个固定的策略\(\pi: \mathcal{S} \to \mathcal{P}(\mathcal{A})\)是一个从状态到动作概率分布的映射,\(\pi

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值