读论文《Towards Explainable Conversational Recommender Systems》因果推理

Towards Explainable Conversational Recommender Systems

ABSTRACT

​ 传统推荐系统中的解释可以帮助用户理解推荐的合理性,提高系统的效率、透明度和可信性。在会话环境中,需要生成多个语境化的解释,这对解释提出了进一步的挑战。为了更好地衡量会话推荐系统(CRS)中的可解释性,本文基于传统推荐系统的概念以及CRS的特点,提出了10种评价视角。使用这些指标评估了5个现有的CRS基准数据集,观察到提高CRS解释质量的必要性。为实现这一目标,本文采用手动和自动方法来扩展这些对话,并构建一个新的CRS数据集,即可解释推荐对话(E-ReDial)。它包括756个对话,超过2000个高质量的重写解释。本文比较了两种基于E-ReDial进行解释生成的基线方法。实验结果表明,在E-ReDial上训练的模型可以显著提高可解释性,而在模型中引入知识可以进一步提高模型的性能。在上下文学习环境下,GPT-3可以生成更真实和多样化的电影描述。相比之下,E-ReDial上的T5训练可以更好地根据用户偏好生成明确的推荐理由。E-ReDial可在https://github.com/Superbooming/E-ReDial获得。

1 INTRODUCTION

​ 推荐系统根据用户的偏好提供个性化建议帮助用户找到物品,已被广泛应用于各种在线应用中。对推荐系统的解释有望澄清为什么这些项目被推荐。研究者指出,恰当的解释有助于提高推荐系统的透明度、说服力、有效性、可信性和用户满意度[42]。因此,越来越多的工作致力于通过各种方法提高推荐的可解释性,例如,纳入用户评论[6,22],反事实推理[37,40]。

​ 传统的推荐系统主要通过分析用户过去的行为来预测用户对物品的偏好,这既不能阐明用户喜欢什么,也不能解释用户为什么喜欢一个物品。对话式推荐系统(CRS)通过实时多轮交互来动态获取用户偏好并响应用户需求。与传统推荐系统中的单回合解释生成相比,CRS需要生成多个上下文化解释,这提出了进一步的挑战。到目前为止,可解释CRS[19]的进展有限。Wen et al.[41]首先尝试在真实的CRS数据集上生成解释。然而,由于缺乏针对CRS解释和具有高质量解释的数据集的评估方法,生成的解释的性能有限且未得到有效评估。本文关注可解释的对话推荐系统,并进行了进一步的调查。

[19] Dietmar Jannach, Ahtsham Manzoor, Wanling Cai, and Li Chen. 2020. A Survey on Conversational Recommender Systems. CSUR 54 (2020), 1–36.

​ 阐述了CRS解释的含义,结合可解释推荐系统[39]和CRS的特点。在形式上,它是指CRS在推荐物品时给出的包含被推荐物品相关细节信息的回复,如推荐物品时的推荐原因、物品描述以及个人意见等。

[39] Nava Tintarev and Judith Masthoff. 2015. Explaining Recommendations: Design and Evaluation. In Recommender Systems Handbook. 353–382.

​ 为了评价CRS的解释,我们提出了10个评价视角。有效性、效率、说服力、满意度、可审查性、透明度、信任和代表性都继承自可解释的推荐系统[1,8]。它们用于评估所有推荐系统的共同属性,例如系统透明度、推荐精度和用户满意度。此外,从CRS的特性出发,推导出其合理性和一致性。他们分别测量了关于逻辑和语言的解释和对话之间的一致性。

​ 用人工标注任务测量了五个广泛使用的CRS数据集,以验证CRS中可解释性的必要性。我们设计了一份包含13个问题的问卷,涵盖了我们提出的10个评价视角。从每个数据集中采样50个对话,邀请超过20名参与者在对话交流层面回答这些问题。从问卷调查结果来看,现有数据集的解释质量相对较低。具体而言,在大多数对话回合中,推荐缺乏解释性、推荐理由模糊、物品描述不具代表性、推荐效果不高、效率不高、用户满意度不高、信任或接受意愿不高。同时,在对话级别对所有采样的对话进行标记,并计算对话和解释之间的相关性。该任务涵盖有效性、效率、对话质量和满意度[19]。结果表明,解释质量与CRS的整体性能高度相关。具体来说,改进解释的任何角度都有利于CRS的有效性和效率电影描述越多样化的对话,对话质量越高,解释越可信,满意度越高。

​ 为了提高CRS的可解释性,构建了一个新的数据集E-ReDial (Explainable Recommendation Dialogues)。通过一项用户研究,研究了高质量的CRS解释,并提取了4个主要特征,即清晰的推荐原因、具有代表性的物品描述、鼓励或个人意见以及合理和上下文相关的解释。在此基础上,用手动和自动的方法来重写从常用的真实CRS数据集中采样的低质量解释的系统响应。在手动方法中,有30多个参与者参与。我们要求他们搜索回复中提到的电影的相关信息(或简称知识),例如情节、预告片、维基和评论,并扩展回复以满足所有要求。在自动化方法中,我们使用GPT-3进行重写。我们使用包含所有需求的提示输入上下文,并收集生成的响应。我们观察到,通过评估两种方法获得的解释,自动方法往往不能满足重写要求。因此,E-ReDial的构建完全采用手工方式。它由电影领域的756个对话和2058个高质量的重写解释组成,其中每个解释都被额外标注了相应的知识和不同的成分。图1展示了E-ReDial数据集的示例。

​ 本文比较了基于训练和基于提示的方法来进行解释生成,即给定上下文和基本事实推荐的电影来生成相应的解释。实验结果表明,在E-ReDial上训练的模型可以显著提高可解释性,而在模型中引入知识可以进一步提高模型的性能。此外,基于训练和基于提示的方法各有优势。而GPT-3可以在上下文学习环境中生成更真实和多样化的电影描述。对E-ReDial进行T5培训,可以更好地根据用户偏好生成明确的推荐理由。

​ 本文的主要工作如下:

(1)本文提出了CRS解释的定义和评价视角,并验证了其必要性。

(2)收集并共享了CRS数据集E-ReDial,其中包括超过2000个高质量的解释。

(3)提出了基于训练和基于提示的基线方法,用于使用E-ReDial生成解释。

数据和代码可以在https://github.com/Superbooming/EReDial上找到。

2 RELATED WORK

Conversational recommendation.

​ 与传统的推荐系统不同,会话式推荐系统通过实时多轮对话与用户进行交互。会话推荐系统主要有两种类型:属性感知的[19]和主题引导的[19]。

Explainable recommendation.

​ 该文重点关注自然语言解释。

​ 为了评价推荐系统的可解释性,Tintarev和Masthoff[39]提出了7个评价目标:透明性(transparency)、可解释性(scrutability)、信任(trust)、有效性(effectiveness)、说服力(persuasive)、效率(efficiency)和满意度(satisfaction)。Chen et al.[8]在此基础上提出了一个新的目标——scrutability,这个目标与上文提到的名称相同,但含义不同。为了区分,在本文的其余部分中,我们将其重命名为代表性。我们将在3.2节将这些目标整合到CRS中。

[39] Nava Tintarev and Judith Masthoff. 2015. Explaining Recommendations: Design and Evaluation. In Recommender Systems Handbook. 353–382.‘

Explainable conversational recommendation.

​ 与传统推荐系统中的单回合解释生成相比,CRS生成了多个上下文化解释,这对解释提出了进一步的挑战。Wen et al.[41]首先提出了一个在真实的CRS数据集上生成解释的框架。然而,由于缺乏针对CRS解释和具有高质量解释的数据集的评估方法,所生成的解释的性能有限且未得到有效评估。为缓解这些问题,本文提出了10个评估视角,并收集了一个具有高质量解释的新的CRS数据集。

[41] Bingbing Wen, Xiaoning Bu, and Chirag Shah. 2022. EGCR: Explanation Generation for Conversational Recommendation. ArXiv abs/2208.08035 (2022).

3 THE EXPLANATION FOR CRS

在本节中,我们将阐述CRS可解释性的含义、评估测量方法,并详细说明如何验证CRS可解释性的必要性。

3.1 Definition

​ 在传统的推荐系统中,解释的定义被广泛认为是为什么商品被推荐[42],或在更广泛的[39]级别上帮助用户更好地理解项目质量的项目描述。CRS与传统推荐系统有许多不同之处。主要区别在于CRS通过实时多轮对话与用户动态交互,获取用户偏好;从而扩大了查询的范围。综合这些因素,我们认为对CRS的解释为:

Explanation for CRSA response from CRS that contains relevant

details about the recommended items in the recommended round.

来自CRS的响应,其中包含有关推荐回合中推荐项目的相关详细信息。

​ 我们期望解释仅在CRSs推荐项目时出现,即在后续对话中,关于项目细节的回答只能被视为对其信息的补充,而不是对推荐的解释。此外,推荐说明必须包含推荐项目的相关细节,如推荐原因、项目描述、个人意见等。

3.2 Evaluation perspectives

​ 推荐的解释可能出于不同的目的,例如,为用户提供推荐和理由以增加他们对系统的信任,或提供详细的项目描述以帮助用户做出更明智的决定。因此,评估解释应该是全面的,即涵盖不同的视角。为了更好地评价CRS解释质量,我们提出以下评价视角,并将其定义和评价方法列于表1中。

​ 在这些视角中,有效性、效率、说服力、满意度、可审查性、透明度、信任和代表性都继承自可解释推荐系统。它们用于评估所有推荐系统的共同属性,例如系统透明度、推荐精度和用户满意度。此外,从CRS的特性出发,推导出其合理性和一致性。他们分别测量了关于逻辑和语言的解释和对话之间的一致性。

在这里插入图片描述

3.3 Necessity

​ 为了验证CRS可解释性的必要性,我们以五个广泛使用的CRS数据集为代表,分别在交流和对话层面检查它们的解释质量。

Datasets. 下面是5个CRS数据集。(1) ReDial[23]是一个现实对话场景中的英语对话电影推荐数据集,包含10006个对话。(2) TG-ReDial[46]数据集采用半自动方法标注主题线索,实现了中文对话式电影推荐。它包含10,000个对话。(3) DuRecDial[24]是一个多类型对话的中文对话推荐数据集,包含10,190个对话。(4) INSPIRED[18]是一个具有良好社交策略的英语电影对话推荐数据集,包含1001个对话。(5) OpenDialKG[29]是一个英语会话推荐数据集,将每个对话与相应的知识图谱路径进行配对,包含15673个对话。我们从每个数据集中随机抽样50个对话进行验证。

Explanation quality at exchange level. 我们设计了一份问卷1,包含13个问题,涵盖表1中的所有评价角度。邀请了20多名参与者,通过对话交流层面的这些评估指标来评估来自抽样对话的系统响应。有关注释的更多详细信息,请参阅我们的存储库https://github.com/Superbooming/ERedial/blob/main/Exchange_level.md。标注结果如表2所示。这些指标是通过在所有交换回合中对相应视角的得分进行平均而获得的。我们还计算了Cohen 's Kappa来衡量注释分歧。由于OpenDialKG中很少有解释,其注释结果高度一致,因此我们省略了Cohen的Kappa。结果表明,现有数据集对所提出的指标的解释质量相对较低。具体而言,在大多数对话回合中,缺乏解释、推荐理由模糊、物品描述不具代表性、推荐效果低、效率低、用户满意度低、信任或接受意愿低。不同数据集的结果不同,两个中文数据集表现最好,INSPIRED和OpenDialKG次之,ReDial最差。不同指标的结果也有所不同,合理性和一致性相对较高,而其他指标则相当低。

在这里插入图片描述

Explanation quality at dialogue level.

​ 我们将每个对话中所有解释指标的值平均为其总体评级。为弄清楚解释质量和对话性能之间的关系,要求标注者在对话级别标记所有采样的对话。我们设计了另一份问卷2,包含5个问题,涵盖了CRS的主要总体目标,即有效性、效率、对话质量和满意度[19]。这些总体目标评估了CRS的不同方面,即用户推荐的接受率、决策的时间成本、会话质量以及系统满足用户需求的成功率。有关注释的更多详细信息,请参阅我们的存储库https://github.com/Superbooming/ERedial/blob/main/Dialogue_level.md。根据标注结果,计算解释与CRS指标之间的斯皮尔曼相关性。

在这里插入图片描述

相关结果如图2所示。本文忽略了解释的有效性、合理性和一致性,因为它们与CRS指标弱相关。**结果表明,解释质量与CRS的整体性能高度相关。具体而言,解释的存在(解释率)和解释的质量(总体)会显著影响CRS的性能。CRS的有效性和效率与几乎所有的解释指标都强相关,这意味着任何解释视角的改进都是有益的。**CRS的对话质量主要与解释的代表性有关,这意味着电影描述越多样化的对话,就会被认为具有更高的对话质量。CRS满意度与解释的透明度、可解释性等与信任相关的指标具有较高的相关性。

4 DATASET AUGMENTATION

​ 本节阐述了我们为提高CRS的可解释性所做的努力。本文进行了一项用户研究,以调查良好的CRS解释的特征,并使用手动和自动方法在常用的CRS数据集上重写低质量的解释。提出了一个具有高质量解释的新数据集——可解释推荐对话(EReDial)。下面,我们详细介绍数据集的创建。

4.1 User study

​ 为了探索提高CRS解释质量的方法,我们通过用户研究来研究良好解释的特征。具体来说,我们邀请了20多个参与者,并让每个参与者注释30个包含不同质量解释的系统响应,我们在3.3节中进行了评估。我们要求他们解释每个回答,为什么解释是好的或坏的。通过对收集到的解释进行分析,得出了高质量解释的CRS的4个主要特征:

(1)明确的推荐原因是系统为什么推荐这些项目以及推荐是基于什么偏好的理性解释。

(2)代表性项目描述,即推荐项目的详细信息,如导演、演员、类型、推荐电影情节等。描述应该是真实的,并具有电影的特征。

(3)对推荐项目的鼓励或个人意见,即从语言或个人经验的角度说服用户接受推荐。(4)合理和语境化,即解释必须在逻辑上和语言上与对话一致。

我们希望通过生成更好的解释来增强数据集的整体解释质量,因为数据集中现有的解释通常缺乏满足上述四个特征的解释。

​ 本文考虑三种方法来生成好的解释:回忆对话和手动和自动重写低质量的解释。考虑到收集的难度和成本,我们选择后两种方法,并将在今后的工作中探索收集的方法。这项工作扩展了ReDial并重写了其低质量的解释。我们选择ReDial是因为它比由某些特定模式构建的数据集更常用,也更真实。同时,从3.3节的标注结果来看,其解释质量最差。用手动和自动的方法重写其解释,并比较两种方法的性能。

4.2 Manual method

​ 我们的手工方法涉及30多名参与者。他们应该搜索相关信息并重写回复,以满足第4.1节的所有要求。注释管道包括三个步骤:搜索信息、重写响应和检查质量。图3说明了这些步骤。

**Searching for information:**为了方便重写响应所需的信息,例如电影情节、预告片、来自IMDb的评论和来自Wikipedia的wiki知识,我们的注释管道提供了检索它们的搜索功能。具体来说,搜索功能利用上下文和所有评论之间的Tf-IDF相似性,并返回三个最相关的评论。为了多样化,外部信息来源也是允许的。

Rewriting the response: 注释者被要求在不改变句子原意的情况下重写难以解释的回答。我们进一步要求注释者对重写的回复进行不同方面的标注,即推荐理由、电影描述、鼓励或个人意见。

Checking quality: 另外10名参与者被要求检查改写后的回答是否合格。

4.3 Automatic method

​ 除了手工方法外,还通过应用自动文本生成模型扩展了解释。选择GPT-33作为扩展的基准模型,因为它在许多文本生成任务上取得了出色的性能。测试了GPT-3的两个版本,即text- davis -003和code- davis -002。我们输入对话上下文和系统与任务说明4一起重写的响应,涵盖4.1节中的所有要求。然后,我们收集生成的文本作为对对话的新响应。

​ 我们邀请了5名标注者来检查生成的响应的质量。分析结果表明,30%以上的响应满足重写要求。具体来说,在大多数情况下,改变句子的原意、缺乏推荐电影、用户偏好和电影描述。由手动和自动方法生成的扩展结果示例如表3所示。

在这里插入图片描述

4.4 The E-ReDial dataset

​ 从ReDial5收集所有符合条件的手动重写响应后,我们将它们与相应的上下文放在一起以形成新的对话。这就产生了一个新的CRS数据集——可解释推荐对话(E-ReDial)。它由756个对话和12003个话语组成,每个对话平均转折15.9次。包含2058个高质量的解释,每个解释平均有79.2个token。我们以与3.3节相同的方式注释它,以衡量解释质量。E-ReDial的详细评价结果如表2所示。结果表明,我们的数据集在所有指标上都明显优于其他数据集。

个对话和12003个话语组成,每个对话平均转折15.9次。包含2058个高质量的解释,每个解释平均有79.2个token。我们以与3.3节相同的方式注释它,以衡量解释质量。E-ReDial的详细评价结果如表2所示。结果表明,我们的数据集在所有指标上都明显优于其他数据集。

5 EXPERIMENTS

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值