在任务型对话系统的评估中,Inform和Success衡量的是不同方面的性能,每个指标都有其独特的关注点。具体的公式可能依赖于实验设置和定义的具体性,但可以提供一个一般性的描述来帮助理解它们之间的区别以及如何计算这些指标。
inform
Inform Rate专注于系统在对话过程中提供正确信息的能力。例如,在一个餐厅预订任务中,如果用户询问有无素食选项,系统正确提供了相关信息,那么可以认为在这一点上系统表现良好。Inform Rate通常通过评估系统提供的信息是否满足用户请求来计算。可以表示为正确提供的信息次数除以总的提问次数。即 正确提供信息的次数 / 用户提问的总次数
Success
Success Rate关注于系统完成整个任务的能力。继续使用餐厅预订的例子,如果用户的目标是预订一个满足特定条件(如时间、地点、菜系等)的餐厅,只有当系统成功完成所有这些条件的预订时,才能认为是成功的。Success Rate的计算通常涉及到整个对话流程,并基于是否成功达成用户的最终目标。如果一个任务包含多个目标(例如,预订特定时间、地点的餐厅),所有目标都必须满足才算成功。即 成功完成任务的对话数 / 总的对话数
Inform Rate主要衡量的是对话过程中提供单个信息点的准确性,而Success Rate则是从宏观角度评价整个对话任务的完成度。两者的具体计算方式可能根据实验设计和具体任务有所不同,但基本原理是比较统一的:Inform Rate通过比较提供正确信息的频率来计算,而Success Rate则基于任务完成的成功率。