可解释推荐系统的定量指标

好多论文利用用户评论作为解释的真实性标准,这些评论汇集了全面的用户偏好。在这些研究中,可解释的推荐问题被视为自然语言生成(NLG)任务,目标是准确预测用户的评论。

通常使用以下指标来评估解释质量:

BLEU和ROUGE scores

BLEU用于衡量机器生成的翻译和一个或多个参考翻译之间的相似性。它通过比较机器生成的翻译中的n-gram(连续的n个词序列)与参考翻译中的n-gram来计算得分。BLEU得分范围从0到1,得分为1表示机器生成的翻译与参考翻译完全一致。

Rouge是一组度量标准,用于衡量机器生成的摘要和参考摘要之间的重叠度。ROUGE计算机器生成的摘要和参考摘要中n-gram的精度、召回率和F-score。ROUGE得分范围从0到1,得分为1表示机器生成的摘要与参考摘要完全重叠。

Unique Sentence Ratio (USR), Feature Coverage Ratio (FCR) and Feature Diversity (FD)

USR 用于衡量生成的摘要中独特句子的比例与输入文档的比较。它通过将生成的摘要中独特句子的数量除以输入文档中的总句子数来计算。较高的USR得分表示摘要包含更多独特信息,减少了冗余。

FCR 用于衡量生成的摘要中涵盖的重要特征在输入文档中的比例。它通过将摘要中涵盖的重要特征数量除以输入文档中的重要特征总数来计算。较高的FCR得分表示摘要覆盖了更多来自输入文档的重要信息。

FD 用于衡量生成的摘要中涵盖特征的多样性。它通过计算摘要中每个句子的特征向量之间的余弦相似度来计算。较高的FD得分表示摘要涵盖了多样的特征。

Feature-level Precision (FP), Recall (FR), and F1 (FF)

用于评估信息提取系统质量的三个常用指标

FP 用于衡量提取的信息中,真正有用的信息所占的比例。它通过将真正有用的信息与所有提取的信息相比较来计算。较高的FP得分表示提取的信息更加准确。

FR 用于衡量有用的信息在提取的信息中被发现的比例。它通过将有用的信息与所有已知的有用信息相比较来计算。较高的FR得分表示提取的信息更加全面。

F1 score 是 FP 和 FR 的加权平均值,可以综合考虑二者的贡献。F1 score 的值越高,表示信息提取系统的性能越好。

Feature Matching Ratio (FMR)

Feature Matching Ratio (FMR) 是用于衡量自然语言生成系统生成文本与目标文本之间特征匹配程度的指标。

FMR 通过计算生成文本中与目标文本中相同特征的数量与目标文本中的总特征数量之比来计算。这里的特征可以是单词、短语、实体等。

较高的 FMR 得分表示生成文本与目标文本之间的特征匹配更好,说明生成文本包含更多目标文本中的重要特征。

Probability of Necessity (PN)

是一种用于评估自然语言生成系统生成文本的必要性的指标。

PN 通过计算生成文本中每个句子的必要性概率之和来计算。必要性概率是指一个句子是否包含了必要的信息,即如果删除该句子,生成文本的信息量将会减少。必要性概率可以通过计算该句子在生成文本中出现的频率与该句子在所有生成文本中出现的频率之比来计算。

较高的 PN 得分表示生成文本中包含更多必要的信息,说明生成文本的质量更高。

Probability of Sufficiency (PS)

是一种用于评估自然语言生成系统生成文本的充分性的指标。

PS 通过计算生成文本中每个句子的充分性概率之和来计算。充分性概率是指一个句子是否包含了充分的信息,即如果只看该句子,读者能够理解文本的大意。充分性概率可以通过计算该句子在生成文本中出现的频率与该句子在所有文本中出现的频率之比来计算。

较高的 PS 得分表示生成文本中包含更多充分的信息,说明生成文本的质量更高。

Performance Shift (PS)

是一种用于评估推荐系统性能变化的指标。

PS 通过将推荐系统的性能与一个随机推荐系统的性能进行比较来计算。随机推荐系统是一个简单的推荐系统,它随机选择物品进行推荐,因此其性能通常很低。PS 的计算方法是将推荐系统的性能指标(如准确率或召回率)减去随机推荐系统的性能指标,得到的差值即为 PS。

较高的 PS 得分表示推荐系统的性能相对于随机推荐系统有所提升,说明推荐系统的质量更高。

Mean Explainability Precision (MEP) and Mean Explainability Recall (MER)

是用于评估可解释机器学习模型的指标。

MEP 和 MER 是基于“局部可解释性”的概念,即解释模型对特定样本的预测结果的能力。MEP 衡量解释模型在所有预测结果中正确解释的比例,而 MER 衡量解释模型在所有真实结果中正确解释的比例。

MEP 和 MER 需要与一个基准解释模型进行比较。基准解释模型可以是人类专家或其他可靠的解释方法。计算 MEP 和 MER 的过程包括以下几个步骤:

  • 对于每个测试样本,生成模型和基准解释模型都会提供一个解释。
  • 根据这两个解释计算出一个相似度分数,表示两个解释的相似程度。
  • 对于每个测试样本,MEP 和 MER 分别计算出解释模型和基准解释模型的准确率和召回率。
  • 最后,将所有测试样本的准确率和召回率求平均,得到 MEP 和 MER 的值。

较高的 MEP 和 MER 得分表示解释模型可以更准确地解释模型的预测结果,从而提高模型的可解释性。

借鉴来源:

论文:Chen X ,  Zhang Y ,  Wen J R . Measuring "Why" in Recommender Systems: a Comprehensive Survey on the Evaluation of Explainable Recommendation[J].  2022.

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值