[论文阅读] 对话式推荐系统的进展与挑战:综述(Advances and Challenges in Conversational Recommender Systems: ASurvey)-02

0. 前言

基于前文继续对本篇论文进行学习。以下主要介绍CRS研究中面临的主要挑战之一:Question-based User Preference Elicitation 基于问题的用户偏好获取。

1. Question-based User Preference Elicitation  

用户在寻找具有特定属性的物品时,可以通过主动搜索寻找到它。 例如,用户可以搜索“iphone12红色256 GB”,其中关键短语“red”和“256 GB”是项目iPhone12的属性。 在这种情况下,用户自己构造查询,性能取决于搜索引擎用户构造查询的专业知识。

即使已经努力帮助用户完成查询,根据他们输入的内容推荐可能的选项,用户仍然需要找出合适的候选查询。此外,这种方式的搜索需要用户熟悉他们想要的每一件东西,这在实践中是不正确的。

 推荐系统向用户介绍他们可能喜欢的潜在物品。 但是,传统的推荐系统只能使用静态历史记录作为输入,存在限制。

CRS可以在搜索引擎和推荐系统之间建立关联。 通过实时交互,CRSs可以通过提问来主动咨询用户。 通过用户反馈,CRSs可以直接了解用户的需求对某些属性的态度,从而做出适当的推荐。 即使用户对推荐的项目不满意,CRSs也有机会在交互过程中调整其推荐。

问题驱动的方法关注的是在对话中问什么的问题。 一般有两种方法: (1)询问物品,或者(2)询问物品的属性/主题/类别

2. 询问物品   Asking about Items

早期研究直接向用户询问有关某项商品本身的意见。 与传统的推荐系统需要提前建模用户的偏好不同,CRS可以在交互过程中构造和调整用户画像。

在CRS场景中,推荐的项目可能会在系统接收到用户的反馈后被更新,并且为了适应用户的实时偏好,这可以是一个完全的改变。 因此,需要一些明确的规则或机制,而不是仅仅在线更新模型的参数。 本文介绍了三种方法。它们可以了解用户对物品的态度并可以快速调整推荐。 这些方法大多数都不在其用户界面中使用自然语言,但是可以轻松地集成基于自然语言的界面来制作CRS。

  • 基于选择的方法。  choice-based methods

主要思想是让用户从当前给定的选项中反复选择其偏好的商品或商品集。 常见策略包括:

(1)从两个给定选项中选择一个物品;
(2)从给定物品列表中选择一个物品;
(3)从两个给定选项中选择一组物品;

在用户选择偏好物品之后,该方法根据用户的选择改变推荐。

例如: Loepp等人 使用矩阵分解(MF)来初始化用户和商品的嵌入,然后从商品嵌入空间中选择两组商品作为候选集,然后让用户选择这两组商品之一 。 重要的是要确保两个候选集尽可能不同或可区分。作者采用了MF算法,并按解释的方差递减的顺序逐一获得了嵌入向量。因此,这些因素,即嵌入向量的不同维数,是按独特性排序的。然后,作者迭代选择只有一个因子值变化的两个项目集。例如,如果两个因素分别代表电影的幽默度和动作度,则两个候选集是具有较高幽默度的电影集和具有较低幽默度的另一组电影,而具有较高幽默度的电影集两套固定在平均水平。当用户选择一个商品集时,用户的偏好嵌入向量将设置为所选商品的嵌入向量的平均值。随着交互过程的继续,选择变得更加困难。用户可以选择忽略该问题,这意味着用户无法区分两个物品集之间的区别,或者他们不在乎。

  • 贝叶斯引出的偏好。  Bayesian Preference Elicitation.

        基于贝叶斯思想的偏好建模,定义用户对物品对的偏好函数:

                

        先前的用户信念

        用户偏好通过概率分布建模:用户向量从用户先验分布中生成:

                

        对用户具有最大期望效用的项目被认为是推荐项目

                

        给定用户针对问题 q 的反馈 r 计算用户偏好的后验概率:

                

  • 交互式推荐。    Interactive Recommendation

交互式推荐模型主要基于强化学习(强化学习理论受到行为主义心理学启发,侧重在线学习并试图在探索-利用exploration-exploitation)间保持平衡。不同于监督学习非监督学习,强化学习不要求预先给定任何数据,而是通过接收环境对动作的奖励(反馈)获得学习信息并更新模型参数

其中往往采用多臂赌博机(MAB)算法。 首先,MAB算法是有效的,自然支持对话场景。 其次,MAB算法可以利用用户之前喜欢的物品,并探索用户可能喜欢但从未尝试过的物品。 也有研究人员将交互式推荐表述为可以快速适应新任务的元学习问题。 这里的任务是根据几种对话历史提出建议。 元学习方法和基于MAB的方法具有平衡探索和开发(E&E)的能力。

由于候选物品集很大,因此直接询问物品对于构建用户偏好特征效率低下。 在现实世界中的CRS应用程序中,随着对话次数的增加,用户会感到无聊。 提出以属性为中心的问题,即询问用户是否喜欢某个属性(或某些作品中的主题/类别),然后根据这些属性提出推荐,这种做法更为实用。

3. 询问有关属性的信息   Asking about Attributes

询问属性的效率更高,因为用户喜欢还是不喜欢某个属性可以显著减少推荐候选。 挑战在于确定要询问的属性序列,以便最小化当前用户需求的不确定性。 前面提到的基于评论的方法属于这一类。 此外,还有其他种类的方法,我们介绍一些主流的分支如下。

  • Fitting Patterns from Historical Interaction  历史互动中的拟合模式

        对话可以看作是一系列包括消耗的物品和提及的属性的实体,目的是学习预测要询问的下一个属性或要推荐的下一个物品。因此,可以用顺序神经网络RNN)来处理序列。

        一个范例是Christakopoulou等人提出的问题与推荐(Q&R)模型,其中系统和用户之间的交互被实现为选择系统。在每轮交互中,系统都会要求用户从给定列表中选择一个或多个不同的主题(例如NBA,漫画或烹饪),然后向用户推荐这些主题中的物品。它包含一个触发器模块,用于决定是询问有关属性的问题还是作出推荐。触发机制可以像随机机制一样简单,或者可以更复杂,即使用捕获用户状态的标准,或者甚至是用户发起的。

        系统产生的话语(即问题)是使用预定义的语言模式或模板构建的,这意味着系统需要注意的只是方面和价值。 这是最新的CRS研究中的常见设置,因为核心任务是推荐而不是语言生成。

        请注意,这些方法有一个共同的缺点:从历史用户行为中学习不能帮助理解交互背后的逻辑。 作为交互系统,这些模型不考虑当用户拒绝推荐时如何对反馈作出反应,即,它们只是试图适应历史交互中的偏好,而不考虑处理不同反馈的明确策略。

  • Reducing Uncertainty   减少不确定性

        上面的方法没有基于明确的策略来处理各种用户反馈,一些研究试图建立一种直接的逻辑来缩小候选对象的范围

               基于评论的方法。     Critiquing-based Methods                                       

        前述的评判模型通常配备有启发式策略,以引出用户对属性的偏好。 在传统的评价模型中,对属性值的评价(例如,颜色为“非红色”或价格为“较便宜”)用于通过移除具有不满意属性的项目来重构候选集。        

        基于神经向量的方法将评论带到潜在向量上,潜在向量既负责生成推荐项目,又负责生成解释属性。

                强化学习驱动的方法。   Reinforcement Learning-driven Methods

        在CRSs中也使用强化学习来选择合适的属性来提问。 通过深度策略网络的授权,系统不仅选择属性,而且确定何时改变当前对话主题的控制策略。

                受图形约束的候选对象。   Graph-constrained Candidates

        基于图结构来表示不同实体间的关系,利用不同物品属性来筛选物品。每次选择与用户偏好最不确定的属性进行询问。

                其它方法。     Other Methods

        还有其他尝试根据用户对属性的反馈进行推荐。 例如,邹等人提出了一种基于扩展矩阵分解模型的问题驱动推荐系统,该模型只考虑用户评分数据,结合用户的实时反馈。

        基本假设是,如果用户喜欢某个项目,那么他/她也会喜欢该项目的属性。因此,在每个回合中,系统将选择具有最大不确定性的属性来询问。

4. 小结

交互式推荐评论方法中,系统不断地提问,每个问题后面都有一个推荐。 只有当用户因满意或不耐烦而退出时,该过程才会终止。 这种设置不自然,可能会在交互过程中损害用户体验。 问太多问题,可能会让互动变成一场审问。 此外,在交互的早期阶段,当系统还没有自信地对用户偏好建模时,具有低置信度的推荐不应该暴露给用户。 换句话说,应该有一个多轮对话策略来控制如何在提问和推荐之间切换,并且这个策略应该在交互过程中动态变化。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值