RAG架构的AI对话产品评估指标

一、改写模块

  1. 准确率 (Accuracy)
    • 指标解释:准确率衡量改写的 Query 是否准确捕捉了原始 Query 的意图。
    • 判断方法及计算:准确率可以通过人工评估获得,即由人类专家比较原始 Query 和改写 Query,并评分其准确性。此外,也可以使用自动化的语义相似度评估工具,如使用预训练的 BERT 模型进行语义编码,然后计算原始和改写 Query 之间的余弦相似度。
  2. 完整性 (Completeness)
    • 指标解释:衡量改写后的 Query 是否包含了执行搜索所需的所有关键信息。
    • 判断方法及计算:通过将改写的 Query 输入到搜索系统中,并检查返回的结果是否全面覆盖了用户的信息需求。自动化方法可能包括从改写的 Query 中提取实体和概念,并与原始 Query 的实体和概念进行对比,确保关键信息不丢失。
  3. 语法正确性 (Grammatical Correctness)
    • 指标解释:评估改写的 Query 在语法上是否正确无误。
    • 判断方法及计算:自动化工具如语言检测工具 (Grammarly API) 或自然语言处理工具(如 SpaCy 或 NLTK)可以用来检测和评分改写 Query 的语法正确性。
  4. 流畅度 (Fluency)
    • 指标解释:评估改写的 Query 是否在自然语言处理上流畅。
    • 判断方法及计算:使用统计语言模型来计算改写 Query 的困惑度 (Perplexity),Perplexity 越低,流畅度越高。也可利用 GPT 等语言模型生成的文本作为参考标准,通过专家评分来衡量流畅度。
  5. 查询效果 (Query Effectiveness)
    • 指标解释:衡量改写的 Query 是否能够有效地提升检索系统返回相关结果的能力。
    • 判断方法及计算:可以通过 A/B 测试,比较使用原始 Query 和改写 Query 对搜索引擎进行查询时,返回结果的相关性。相关性可以通过点击率 (CTR) 或用户满意度调查来衡量。

二、检索模块

  1. 准确率 (Precision)
    • 指标解释:衡量检索到的结果中有多少是相关的。
    • 判断方法及计算
      • 自动化计算:Precision = (检索到的相关文档数量) / (检索到的文档总数)
      • 工具/模型:使用带标注的测试集来自动计算准确率。
  2. 召回率 (Recall)
    • 指标解释:衡量检索系统能够找到所有相关文档的比例。
    • 判断方法及计算
      • 自动化计算:Recall = (检索到的相关文档数量) / (数据库中所有相关文档的数量)
      • 工具/模型:需要带有标记的数据集来评估召回率。
  3. F1 分数 (F1 Score)
    • 指标解释:准确率和召回率的调和平均,是一个综合指标。
    • 判断方法及计算
      • 自动化计算:F1 Score = 2 * (Precision * Recall) / (Precision + Recall)
      • 工具/模型:依赖测试集的正确标注。
  4. 平均精确率 (Mean Average Precision, MAP)
    • 指标解释:排名的准确率平均值,计算每个查询的精度@k,然后对所有查询求平均。
    • 判断方法及计算
      • 自动化计算:计算每个查询的平均精确率,对所有查询结果取平均。

三、排序模块

  1. 平均精确率 (Mean Average Precision, MAP)
    • 指标解释:对一系列查询计算平均精确率(AP),再对所有查询的 AP 取平均值。
  2. 正确率@K (Precision@K)
    • 指标解释:在前 K 个检索结果中,有多少是相关的。
    • 计算方法:Precision@K = (前 K 个文档中相关文档的数量) / K
  3. 召回率@K (Recall@K)
    • 指标解释:在前 K 个检索结果中,检索到的相关文档的数量占总相关文档数量的比例。
    • 判断方法及计算:Recall@K = (前 K 个文档中相关文档的数量) / (数据库中所有相关文档的数量)
  4. 平均倒数排名 (Mean Reciprocal Rank, MRR)
    • 指标解释:在一组查询中,每个查询的第一个相关文档的排名倒数的平均值。
  5. NDCG (Normalized Discounted Cumulative Gain)
    • 指标解释:考虑文档的相关性和排名位置,NDCG 衡量排名质量。
  6. 排名损失 (Ranking Loss)
    • 指标解释:在多标签排序问题中,衡量模型预测的排名与真实排名的平均配对损失。
  7. 错误发现率 (Error Discovery Rate, EDR)
    • 指标解释:在某个截断点 K 时,错误排名文档数量与前 K 个文档总数的比例。

四、生成模块

  1. BLEU(双语评估替补)
    • 指标解释:BLEU 比较机器生成的文本与一个或多个参考文本之间的重叠度。
    • 计算方法:计算 n-grams 的匹配度,精确度加权平均,加入长度惩罚因子。
  2. ROUGE(召回率取向摘要评估)
    • 指标解释:评估自动文本摘要或机器翻译质量,通过衡量生成文本与参考摘要的重叠度。
  3. METEOR(度量评估翻译编辑率)
    • 指标解释:考虑同义词和句法结构,改进 BLEU 以更好反映翻译质量。
  4. Perplexity(困惑度)
    • 指标解释:衡量语言模型预测样本的能力。
  5. 自动化评估与人工评估
    • 指标解释:自动生成的文本需要人工评估其自然度和适用性,尤其是情感表达、幽默感、文化相关性等方面。
  6. 自动文本质量评价指标
    • BERTScore:利用预训练的 BERT 模型计算生成文本与参考文本的相似度。
    • BLEURT:Google 开发的基于学习的评估指标,用于评估文本质量。

 五、用户侧的评估  

1.用户满意度

通过用户对答案反馈、调查问卷、评分系统等收集用户满意度。

2.问题解决率

评估AI的回答是否大部分或者全部真正解决了用户的问题。

3.响应速度

评估系统响应时间,确保用户等待答案的时间不要过长,如控制在10秒内,大部分5秒内生成答案。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值