[论文阅读] 对话式推荐系统的进展与挑战:综述(Advances and Challenges in Conversational Recommender Systems: ASurvey)-05

0. 序言

本文接着学习CRS的主要挑战之一: Exploration-Exploitation Trade-offs 探索和利用的权衡

 

1. Exploration-Exploitation Trade-offs   探索-利用权衡

 CRSs的一个挑战是处理历史交互很少的冷启动用户。 一种自然的解决方法是通过勘探-利用(E&E)权衡的思想。 通过开发,系统利用了已知的最佳选择; 在勘探过程中,系统需要承担一些风险来收集关于未知选项的信息。 为了实现长期优化,人们可能会做出短期牺牲。 在E&E的早期阶段,探索试验可能会失败,但它警告模型在未来不要太频繁地采取行动。 虽然E&E折衷主要用于推荐系统中的冷启动场景,但它也可用于提高推荐系统中任何用户(包括冷用户和热用户)的推荐性能

2. Multi-Armed Bandits In Recommendation   推荐中的MAB

  • Introduction to Multi-Armed Bandits

        ​​​​​​​MAB是一个经典的强化学习问题,很好地证明了E&E困境。MAB源自于一个故事:一个赌徒在一排老虎机(每一个都被称为“独臂强盗”)上,想要最大化他的预期收益,必须决定玩哪一个机器,每一个机器玩多少次,以什么顺序玩,以及是继续使用当前的机器还是尝试不同的机器。 这个问题很困难,因为所有的老虎机都是黑盒,它们的属性,即获胜的概率,只能通过以前的实验来估计。

​​​​​​​        最常用的带宽策略包括贪婪策略,即只利用策略,它总是选择具有当前估计的最高回报的臂;随机策略,即简单的只探索策略;-贪婪,通过一个触发器与概率混合的贪婪和随机策略。其他经典模型包括下一步介绍的置信上限(UCB)和汤普森抽样。 

  •  Recommendation via MAB-based Methods   通过基于MAB的方法进行推荐

        传统的MAB只考虑将物品视为独立的arms,而忽略了物品的特征。 直接根据累积的奖励来估计每个项目被选中的可能性是相当低效的,因为项目数量很多。 因而提出了一种称为LinUCB的线性置信上限模型,这是第一个在推荐系统中考虑上下文信息(即用户/商品特征)的强盗模型。

        此外,根据不同情况,提出了不同的加强MAB策略。 multi-armed bandit方法的优点是能够进行在线学习,使模型能够了解冷用户的偏好,并在多次尝试后迅速调整策略,以追求全局最优。

  • Multi-Armed Bandits in CRSs

        作为E&E权衡的经典算法,基于MAB的模型可以无缝地插入到在线推荐设置、交互式推荐和CRSs中,与用户互动的能力使CRS能够直接使用基于MAB的方法去作出推荐。 有人提出了一个经典的基于MAB的CRS模型。他们首先使用离线数据初始化模型参数,然后利用实时用户反馈通过几个常见的多臂土匪模型(MAB)更新参数,包括前面提到的贪婪策略、随机策略、UCB和TS。 一方面,在线更新使初始化模型的性能得到了改善;另一方面,离线初始化有助于降低盗匪方法的计算复杂度。

        有人提出了一种会话上置信限(ConUCB)算法,将LinUCB模型应用于CRS上下文。 ConUCB不询问项目,而是询问用户一个或多个属性(他们工作中的关键字)。 具体来说,他们假设用户对属性的偏好可以传播到商品上,因此系统可以分析用户对查询属性的反馈,从而快速缩小商品候选范围。然而,手工制定的策略是脆弱和僵化的,因为系统应该只有在置信度较高的情况下才会做出推荐。

        因此提出了一种对话式汤普森抽样方法(COTS),用于自动交替询问属性问题和推荐项目。

3. Meta Learning for CRSs   CRSs的元学习

除了multi-armed bandits,还有一些工作试图通过元学习平衡探索和利用。例如 有人提出将交互式推荐定义为一个元学习问题,其目标是学习一种学习算法,该算法将用户的历史交互作为输入输出模型(策略函数),可以应用于新用户。 此外,还有人通过基于模型不可知元学习(MAML)算法的模型解决了推荐中的冷启动问题[46]。学习后的推荐模型可以在微调阶段通过向冷用户提出一些关于某些项目的问题(称为工作中的证据候选)来快速适应冷用户偏好。 这项工作的一个缺点是,证据候选只被选择一次,查询过程只在冷用户到达的开始进行。 最好将此策略扩展到CRS设置,并开发动态多轮查询策略来进一步增强推荐。

4. 小结

 本文主要介绍了MAB及CRS如何通过基于MAB的方法和元学习方法等交互模型来解决冷启动问题并解决E&E平衡。如下表总结了解决方案。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值