一、改写模块
- 准确率 (Accuracy)
- 指标解释:准确率衡量改写的 Query 是否准确捕捉了原始 Query 的意图。
- 判断方法及计算:准确率可以通过人工评估获得,即由人类专家比较原始 Query 和改写 Query,并评分其准确性。此外,也可以使用自动化的语义相似度评估工具,如使用预训练的 BERT 模型进行语义编码,然后计算原始和改写 Query 之间的余弦相似度。
- 完整性 (Completeness)
- 指标解释:衡量改写后的 Query 是否包含了执行搜索所需的所有关键信息。
- 判断方法及计算:通过将改写的 Query 输入到搜索系统中,并检查返回的结果是否全面覆盖了用户的信息需求。自动化方法可能包括从改写的 Query 中提取实体和概念,并与原始 Query 的实体和概念进行对比,确保关键信息不丢失。
- 语法正确性 (Grammatical Correctness)
- 指标解释:评估改写的 Query 在语法上是否正确无误。
- 判断方法及计算:自动化工具如语言检测工具 (Grammarly API) 或自然语言处理工具(如 SpaCy 或 NLTK)可以用来检测和评分改写 Query 的语法正确性。
- 流畅度 (Fluency)
- 指标解释:评估改写的 Query 是否在自然语言处理上流畅。
- 判断方法及计算:使用统计语言模型来计算改写 Query 的困惑度 (Perplexity),Perplexity 越低,流畅度越高。也可利用 GPT 等语言模型生成的文本作为参考标准,通过专家评分来衡量流畅度。
- 查询效果 (Query Effectiveness)
- 指标解释:衡量改写的 Query 是否能够有效地提升检索系统返回相关结果的能力。
- 判断方法及计算:可以通过 A/B 测试,比较使用原始 Query 和改写 Query 对搜索引擎进行查询时,返回结果的相关性。相关性可以通过点击率 (CTR) 或用户满意度调查来衡量。
二、检索模块
- 准确率 (Precision)
- 指标解释:衡量检索到的结果中有多少是相关的。
- 判断方法及计算:
- 自动化计算:Precision = (检索到的相关文档数量) / (检索到的文档总数)
- 工具/模型:使用带标注的测试集来自动计算准确率。
- 召回率 (Recall)
- 指标解释:衡量检索系统能够找到所有相关文档的比例。
- 判断方法及计算:
- 自动化计算:Recall = (检索到的相关文档数量) / (数据库中所有相关文档的数量)
- 工具/模型:需要带有标记的数据集来评估召回率。
- F1 分数 (F1 Score)
- 指标解释:准确率和召回率的调和平均,是一个综合指标。
- 判断方法及计算:
- 自动化计算:F1 Score = 2 * (Precision * Recall) / (Precision + Recall)
- 工具/模型:依赖测试集的正确标注。
- 平均精确率 (Mean Average Precision, MAP)
- 指标解释:排名的准确率平均值,计算每个查询的精度@k,然后对所有查询求平均。
- 判断方法及计算:
- 自动化计算:计算每个查询的平均精确率,对所有查询结果取平均。
三、排序模块
- 平均精确率 (Mean Average Precision, MAP)
- 指标解释:对一系列查询计算平均精确率(AP),再对所有查询的 AP 取平均值。
- 正确率@K (Precision@K)
- 指标解释:在前 K 个检索结果中,有多少是相关的。
- 计算方法:Precision@K = (前 K 个文档中相关文档的数量) / K
- 召回率@K (Recall@K)
- 指标解释:在前 K 个检索结果中,检索到的相关文档的数量占总相关文档数量的比例。
- 判断方法及计算:Recall@K = (前 K 个文档中相关文档的数量) / (数据库中所有相关文档的数量)
- 平均倒数排名 (Mean Reciprocal Rank, MRR)
- 指标解释:在一组查询中,每个查询的第一个相关文档的排名倒数的平均值。
- NDCG (Normalized Discounted Cumulative Gain)
- 指标解释:考虑文档的相关性和排名位置,NDCG 衡量排名质量。
- 排名损失 (Ranking Loss)
- 指标解释:在多标签排序问题中,衡量模型预测的排名与真实排名的平均配对损失。
- 错误发现率 (Error Discovery Rate, EDR)
- 指标解释:在某个截断点 K 时,错误排名文档数量与前 K 个文档总数的比例。
四、生成模块
- BLEU(双语评估替补)
- 指标解释:BLEU 比较机器生成的文本与一个或多个参考文本之间的重叠度。
- 计算方法:计算 n-grams 的匹配度,精确度加权平均,加入长度惩罚因子。
- ROUGE(召回率取向摘要评估)
- 指标解释:评估自动文本摘要或机器翻译质量,通过衡量生成文本与参考摘要的重叠度。
- METEOR(度量评估翻译编辑率)
- 指标解释:考虑同义词和句法结构,改进 BLEU 以更好反映翻译质量。
- Perplexity(困惑度)
- 指标解释:衡量语言模型预测样本的能力。
- 自动化评估与人工评估
- 指标解释:自动生成的文本需要人工评估其自然度和适用性,尤其是情感表达、幽默感、文化相关性等方面。
- 自动文本质量评价指标
- BERTScore:利用预训练的 BERT 模型计算生成文本与参考文本的相似度。
- BLEURT:Google 开发的基于学习的评估指标,用于评估文本质量。
五、用户侧的评估
1.用户满意度
通过用户对答案反馈、调查问卷、评分系统等收集用户满意度。
2.问题解决率
评估AI的回答是否大部分或者全部真正解决了用户的问题。
3.响应速度
评估系统响应时间,确保用户等待答案的时间不要过长,如控制在10秒内,大部分5秒内生成答案。