大模型评价标准总结

大模型评价标准总结

1 算法自动评价

算法自动评价类中,根据各标准针对的算法不同特性,可分为准确度(Accuracy)、标定性(Calibration)、公平性(Fairness)以及鲁棒性(robustness)。其中包含的确切指标可细分如下:

1.1 准确度(Accuracy):

  1. exact match (EM). 这个指标可被译为确切匹配,是根据大模型给出的结果与标准值之间的匹配度来计算的,完全匹配时,EM值为1,不完全匹配时,EM值为0,但匹配比较呆板,可以设定一个阈值,来衡量完全匹配这个概念,比如:
    E M h = { 1 , δ ≥ h , 0 , δ < h , EM_{h} = \begin{cases}1, \delta \geq h, \\0, \delta < h,\end{cases} EMh={ 1,δh,0,δ<h,
    其中, δ \delta δ为大模型给出的结果与标准值之间的匹配比例, h h h为匹配度阈值,大于等于该阈值时,即 δ ≥ h \delta \geq h δh,判定为确切匹配,有 E M h = 1 EM_{h} = 1 EMh=1;小于该阈值时,即 δ < h \delta < h δ<h,不判定为确切匹配,有 E M h = 0 EM_h = 0 EMh=0

  2. F1 score. 这个指标为基于深度学习的方法常用的评价指标,也可被用于大模型的实际效果评估,
    F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l , F_1 = \frac{2\times Precision\times Recall}{Precision+Recall}, F1=Precision+Recall2×Precision×Recall,
    其中, P r e c i s i o n Precision Precision为精确率,Recall为召回率,其计算分别为
    Precision = T P T P + F P , Recall = T P T P + F N \text{Precision}=\frac{TP}{TP+FP},\\ \text{Recall}=\frac{TP}{TP+FN} Precision=TP+FPTP,Recall=TP+FNTP

    其中,TP(True positive)为真正例,TN(True nagative)为真负例,FP(False positive)为假正例,FN(False nagative)为假负例。简单来说就是预测正确的样本数量,除以全部的样本数量。即精确率可被解释为:在被识别为正类别的样本中,识别正确的比例。召回率可被解释为:在所有正类别样本中,被正确识别为正类别的比例

    对于一般的模型,精确率和召回率往往是此消彼长。也就是说,提高精确率通常会降低召回率,反之亦然。

    而F1 score则为比较综合性的指标,其脱胎于F值,其计算公式为
    F = ( 1 + a 2 ) × Precision × Recall a 2 × ( Precision + Recall ) , F = \frac{(1+a^2)\times \text{Precision}\times \text{Recall}}{a^2 \times (\text{Precision}+\text{Recall})}, F=a2×(Precision+Recall)(1+a2)×Precision×Recall,
    其中,权重因子 a a a的值取1时,即变为F1 score。

  3. ROUGE. ** 此指标有确切的来源论文,GOOGLE学术引用16046次[1],是学术界认可的评价指标之一。ROGUE是Recall-Oriented Understudy for Gisting Evaluation的简写,译为:基于召回率的主旨评估替补。原论文中主要介绍了4种ROGUE,分别为:ROUGE-N (N-gram Co-Occurrence Statistics, N-gram共现统计), ROUGE-L ( Longest Common Subsequence, LCS, 最长公共子序列), ROUGE-W ( Weighted Longest Common Subsequence, WLCS, 加权最长公共子序列)以及ROUGE-S** ( Skip-Bigram Co-Occurrence Statistics, Skip-Bigram共现统计),其中最常用的为ROUGE-NROUGE-L,此处仅介绍这两种,其他种类请参阅原文[1].

    ROUGE-N的表达式为
    ROUGE-N = ∑ S ∈ { R e f e r e n c e S u m m a r i e s } ∑ g r a m n ∈ S C o u n t m a t c h ( g r a m n ) ∑ S ∈ { R e f e r e n c e S u m m a r i e s } ∑ g r a m n ∈ S C o u n t ( g r a m n ) , \text{ROUGE-N}=\frac{\sum_{S\in\{ReferenceSummaries\}}\sum_{gram_n\in S} Count_{match}(gram_n)}{\sum_{S\in\{ReferenceSummaries\}}\sum_{gram_n\in S}Count(gram_n)}, ROUGE-N=S{ ReferenceSummaries}gramnSCount(gramn)S{ ReferenceSummaries}gramnSCountmatch(gramn),
    其中, n n n为共现统计的长度,即统计对象的出现次数。 C o u n t m a t c h ( g r a m n ) Count_{match}(gram_n) Countmatch(gramn)为大模型输出结果和一组参考真值中同时出现的n-gram共现统计的最大数量。 C o u n t ( g r a m n ) Count(gram_n)

### 大语言模型的评估指标 对于大语言模型而言,其性能能力可以通过多种关键指标来进行全面而系统的测评。这些指标不仅涵盖了模型的基础准确性,还涉及更复杂的语义理解生成质量。 #### 准确率(Accuracy) 准确率是最直观也是最基础的一个评价标准,它反映了模型预测结果与真实标签相匹配的比例[^1]。然而,在处理自然语言任务时,仅依赖于准确率可能不足以完全反映模型的能力,因为这忽略了其他重要因素如上下文连贯性表达多样性。 #### BLEU (Bilingual Evaluation Understudy) BLEU是一种广泛应用于机器翻译其他文本生成任务中的自动评分工具。该分数基于候选句子与多个参考译文之间的n元语法重叠程度计算得出。尽管存在局限性,但在比较不同版本或改进前后的同一系统时非常有用[^3]。 #### ROUGE (Recall-Oriented Understudy for Gisting Evaluation) ROUGE系列度量主要用于总结概括任务的效果评测,特别是信息检索领域内的摘要提取工作。通过统计两个序列间共有的词组片段数量来估算相似度得分;其中较为常见的有Rouge-N、 Rouge-L等形式。 #### METEOR (Metric for Evaluation of Translation with Explicit ORdering) METEOR综合考虑了单词级别的精确召回以及短语结构的一致性等因素,试图提供更加贴近人类判断习惯的结果反馈机制。除了基本的字符串匹配外,还会利用同义词库等资源增强评判灵活性[^2]。 ```python from nltk.translate.meteor_score import meteor_score import numpy as np def calculate_meteor(reference, hypothesis): score = meteor_score([reference], hypothesis) return round(score * 100, 2) references = ["the cat is on the mat"] hypotheses = ["there is a cat sitting on the floor"] scores = [calculate_meteor(refs, hyp) for refs,hyp in zip(references*len(hypotheses), hypotheses)] print(f'METEOR Score: {np.mean(scores)}') ``` #### Perplexity (困惑度) 这是针对概率型语言模型特有的一个衡量尺度,用来描述给定一段文字序列下模型分配的概率分布情况。较低值意味着更好的拟合效果,即能够较好地捕捉到输入数据内部规律特征。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

空 白II

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值