推荐系统公平性论文阅读(四)

最新推荐文章于 2024-01-21 03:42:22 发布

「已注销」

最新推荐文章于 2024-01-21 03:42:22 发布

阅读量426

点赞数

文章标签：算法人工智能强化学习机器学习深度学习

本文链接：https://blog.csdn.net/qq_44529027/article/details/120663277

版权

接下来我总共花了将近四天时间才将论文《Towards Long-term Fairness in Recommendation》^[1]理解透彻。因为该论文用到了强化学习(Reinforcement Learning)，而强化学习不像之前的生成对抗网络(GAN)一样简洁明了，涉及的数学知识非常多。
在看论文之前我花费了很所时间去补强化学习的基础，其中牵涉到的知识点还包括随机过程、数值优化等，因此我在掌握文章背景上就耗费了很多时间和精力。
不过当我将强化学习的背景搞清楚后，整片文章读起来的速度就大大加快了，因为该文章本质上就是在强化学习的策略优化算法(论文采用的的是经典的置信域优化算法)的基础上加一个公平性约束而已。我我自身理解的基础上，对该论文的结构和核心思想进行了模块化地详细地梳理，而这篇日志也就是我记录的梳理论文思想的心路历程。

论文创新点

该论文有三个要点：
其一是视角独到，在基于强化学习的推荐系统框架上建模，可以保证长期的公平性问题，而不是像大多数论文一样只保证短期的公平性；
其二是将公平性约束做为强化学习中著名的置信域优化算法的一个约束项来处理，简洁明了；
其三是公平性约束是线性的，对于模型的参数优化能求得解析解，这样可以大大降低算法的时间复杂度。

背景知识储备

首先，我通过阅读强化学习的经典著作《Reinforcement learning: An introduction》^[2]对强化学习中的许多基本概念有了初步的认知。强化学习的关键思想是马尔可夫决策过程(Markov Decision Processes, MDPs)。一个MDP可以用一个元组\(M=(\mathcal{S}, \mathcal{A},\mathcal{P}, \mathcal{R}, \mu , \gamma )\)来表示，这\(\mathcal{S}\)表示\(n\)个状态\(s\)的集合。\(A\)表示\(m\)个动作\(a\)的集合，\(\mathcal{P}: \mathcal{S}\times \mathcal{A} \times \mathcal{S} \to [0,1]\)表示状态转移函数。对于在经过动作\(a_{t}\)后，由状态\(s_{t}\)转移为状态\(s_{t+1}\)的概率我们可以表示为\(P(s_{t+1}|s_{t}, a_{t})\)。\(\mathcal{R}:\mathcal{S} \times \mathcal{A} \times \mathcal{S} \to \mathbb{R}\)。我们将做出动作\(a_{t}\)后，由状态\(s_{t}\)转移到状态\(s_{t+1}\)而触发的奖励记作\(r(s_{t}, a_{t}, s_{t+1})\)，\(\mu: \mathcal{S} \to [0, 1]\)是一个初始状态分布。\(\gamma \in [0, 1)\)是折扣因子。一个固定的策略\(\pi: \mathcal{S} \to \mathcal{P}(\mathcal{A})\)是一个从状态到动作概率分布的映射，\(\pi

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
推荐系统公平性论文阅读(四)

接下来我总共花了将近四天时间才将论文《Towards Long-term Fairness in Recommendation》[1]理解透彻。因为该论文用到了强化学习(Reinforcement Learning)，而强化学习不像之前的生成对抗网络(GAN)一样简洁明了，涉及的数学知识非常多。在看论文之前我花费了很所时间去补强化学习的基础，其中牵涉到的知识点还包括随机过程、数值优化等，因此...
复制链接

扫一扫