0. 序言
本文接着学习CRS的主要挑战之一: Exploration-Exploitation Trade-offs 探索和利用的权衡
1. Exploration-Exploitation Trade-offs 探索-利用权衡
CRSs的一个挑战是处理历史交互很少的冷启动用户。 一种自然的解决方法是通过勘探-利用(E&E)权衡的思想。 通过开发,系统利用了已知的最佳选择; 在勘探过程中,系统需要承担一些风险来收集关于未知选项的信息。 为了实现长期优化,人们可能会做出短期牺牲。 在E&E的早期阶段,探索试验可能会失败,但它警告模型在未来不要太频繁地采取行动。 虽然E&E折衷主要用于推荐系统中的冷启动场景,但它也可用于提高推荐系统中任何用户(包括冷用户和热用户)的推荐性能。
2. Multi-Armed Bandits In Recommendation 推荐中的MAB
- Introduction to Multi-Armed Bandits
MAB是一个经典的强化学习问题,很好地证明了E&E困境。MAB源自于一个故事:一个赌徒在一排老虎机(每一个都被称为“独臂强盗”)上,想要最大化他的预期收益,必须决定玩哪一个机器,每一个机器玩多少次,以什么顺序玩,以及是继续使用当前的机器还是尝试不同的机器。 这个问题很困难,因为所有的老虎机都是黑盒,它们的属性,即获胜的概率,只能通过以前的实验来估计。
最常用的带宽策略包括贪婪策略,即只利用策略,它总是选择具有当前估计的最高回报的臂;随机策略,即简单的只探索策略;
-贪婪,通过一个触发器与概率
混合的贪婪和随机策略。其他经典模型包括下一步介绍的置信上限(UCB)和汤普森抽样。
- Recommendation via MAB-based Methods 通过基于MAB的方法进行推荐
传统的MAB只考虑将物品视为独立的arms,而忽略了物品的特征。 直接根据累积的奖励来估计每个项目被选中的可能性是相当低效的,因为项目数量很多。 因而提出了一种称为LinUCB的线性置信上限模型,这是第一个在推荐系统中考虑上下文信息(即用户/商品特征)的强盗模型。
此外,根据不同情况,提出了不同的加强MAB策略。 multi-armed bandit方法的优点是能够进行在线学习,使模型能够了解冷用户的偏好,并在多次尝试后迅速调整策略,以追求全局最优。
Multi-Armed Bandits in CRSs
作为E&E权衡的经典算法,基于MAB的模型可以无缝地插入到在线推荐设置、交互式推荐和CRSs中,与用户互动的能力使CRS能够直接使用基于MAB的方法去作出推荐。 有人提出了一个经典的基于MAB的CRS模型。他们首先使用离线数据初始化模型参数,然后利用实时用户反馈通过几个常见的多臂土匪模型(MAB)更新参数,包括前面提到的贪婪策略、随机策略、UCB和TS。 一方面,在线更新使初始化模型的性能得到了改善;另一方面,离线初始化有助于降低盗匪方法的计算复杂度。
有人提出了一种会话上置信限(ConUCB)算法,将LinUCB模型应用于CRS上下文。 ConUCB不询问项目,而是询问用户一个或多个属性(他们工作中的关键字)。 具体来说,他们假设用户对属性的偏好可以传播到商品上,因此系统可以分析用户对查询属性的反馈,从而快速缩小商品候选范围。然而,手工制定的策略是脆弱和僵化的,因为系统应该只有在置信度较高的情况下才会做出推荐。
因此提出了一种对话式汤普森抽样方法(COTS),用于自动交替询问属性问题和推荐项目。
3. Meta Learning for CRSs CRSs的元学习
除了multi-armed bandits,还有一些工作试图通过元学习平衡探索和利用。例如 有人提出将交互式推荐定义为一个元学习问题,其目标是学习一种学习算法,该算法将用户的历史交互作为输入输出模型(策略函数),可以应用于新用户。 此外,还有人通过基于模型不可知元学习(MAML)算法的模型解决了推荐中的冷启动问题[46]。学习后的推荐模型可以在微调阶段通过向冷用户提出一些关于某些项目的问题(称为工作中的证据候选)来快速适应冷用户偏好。 这项工作的一个缺点是,证据候选只被选择一次,查询过程只在冷用户到达的开始进行。 最好将此策略扩展到CRS设置,并开发动态多轮查询策略来进一步增强推荐。
4. 小结
本文主要介绍了MAB及CRS如何通过基于MAB的方法和元学习方法等交互模型来解决冷启动问题并解决E&E平衡。如下表总结了解决方案。