Recommendation Fairness: From Static to Dynamic 阅读笔记

最新推荐文章于 2023-07-19 18:16:02 发布

Catherine_he_ye

最新推荐文章于 2023-07-19 18:16:02 发布

阅读量293

点赞数

文章标签：强化学习算法公平

本文链接：https://blog.csdn.net/catherine_he_ye/article/details/128019302

版权

论文链接https://arxiv.org/abs/2109.03150v1

Section 1 引言

越来越多的推荐系统开始将推荐建模为一个马尔可夫决策过程，并使用强化学习来解决这个问题。从而推荐系统场景下的公平性研究便面临着一个从静态评价与一次性干预static evaluation and one-shot intervention到动态监控与不间断控制dynamic monitoring and non-stop control的转变。

在本文中，我们首先介绍了推荐系统的最新发展，然后讨论了如何将公平性融入到推荐的强化学习技术中。此外，我们认为，为了在推荐公平性方面取得进一步的进展，我们可以在随机博弈stochastic games的一般框架下考虑多智能体（博弈论）优化multi-agent (game-theoretic) optimization、多目标（帕累托）优化multi-objective (Pareto) optimization和基于仿真的优化simulation-based optimization。

Section 2 强化学习的兴起

1. 矩阵补全问题&矩阵分解算法

在推荐系统中，我们经常会拿到一种数据是user—item的表格，然后对应的是每位user对每个item的评分，如下图：

userID	item1	item2	item3	item4	...	...	item10
user1	5	5	?	1	...	...	1
user2	5	?	4	1	...	...	1
user3	1	?	1	5	...	...	5
user4	1	1	?	4	...	...	?

矩阵补全问题顾名思义，即根据现有的单元格值来预测缺失的单元格值。

这种矩阵补全问题通常用矩阵分解算法来解决。由于并没有接触过推荐系统相关的项目，小禾对此也不是很了解，感兴趣的可以参考其他博主博客了解一下这类算法。也许这篇会有帮助（但小禾也没来得及拜读，最近还是专注于公平性研究来读论文中的重点）。

2. 基于强化学习的推荐系统

Reinforcement learning (RL) — an area of machine learning which is concerned with optimal decision making over time in a dy namic environment — offers a promising approach to tackling the problems of personalization and interactivity by capturing users’ evolving interests and optimizing their long-term experiences.

Markov decision process

A hot research topic is to develop offline reinforcement learning meth ods for interactive recommendation which can make effec tive use of previously collected user-item interaction data without expensive online data collection.

Section 3 推荐系统算法公平性研究的演变发展

3.1 Static Recommendation Fairness

1. 推荐系统的公平性指标可以被定义为两个层次： individual fairness和 group fairness.

2. 一般来说，迄今为止，在推荐中抵消偏见和促进公平性的技术主要是以约束优化的形式进行的。要么在一组公平约束的情况下最大化效用，要么在保证效用下限的前提下最大化公平，或共同优化两者以获得整体满意度。

3. 这些工作大多是对传统的基于矩阵补全的推荐系统进行公平性调整。他们的推荐公平性概念是静态的，因为受保护的组在推荐过程中是固定的。

3.2 Dynamic Recommendation Fairness

1. 很少有研究来调查基于强化学习的推荐系统的公平性，其中受保护的群体可能会随着时间的推移而变化。在人口分布正在发生变化或所做的决策会产生反馈效应的动态环境中，反直觉的现象（如辛普森悖论）可能会发生，偏见可能会被反复放大。例如，在每一步都施加公平，实际上可能会加剧不公平。

2. Balancing Accuracy and Fairness for Interactive Recommendation with Reinforcement Learning中，提出了一种基于强化学习的公平性推荐框架，以长期动态平衡推荐的准确性和用户的公平性。不断变化的用户偏好和公平性状态在MDP推荐模型中共同表示为状态。此外，还设计了 a two-fold reward function来综合准确性和公平性。

3. 针对item而不是user的公平性推荐方案： Towards Long-Term Fairness in Recommendation. 关注不同项目组的流行程度，在推荐过程中动态变化，即流行的项目在一段时间后会变得不受欢迎，反之亦然。【 solved by performing constrained policy optimization with an actor-critic architecture】

3.3 Looking Ahead

1. 多智能体（博弈论）优化：

① 由于推荐系统是multi-stakeholder platforms，至少涉及item的消费者(客户)以及item的生产者(供应商)

② MARL问题

③ 纳什均衡 $\rightarrow$ 相关均衡correlated equilibrium，可通过这篇知乎简单了解

④ 行为博弈论behavior game theory