大模型评价标准

大模型评价标准总结

1 算法自动评价

算法自动评价类中,根据各标准针对的算法不同特性,可分为准确度(Accuracy)、标定性(Calibration)、公平性(Fairness)以及鲁棒性(robustness)。其中包含的确切指标可细分如下:

1.1 准确度(Accuracy):

  1. exact match (EM). 这个指标可被译为确切匹配,是根据大模型给出的结果与标准值之间的匹配度来计算的,完全匹配时,EM值为1,不完全匹配时,EM值为0,但匹配比较呆板,可以设定一个阈值,来衡量完全匹配这个概念,比如:
    E M h = { 1 , δ ≥ h , 0 , δ < h , EM_{h} = \begin{cases}1, \delta \geq h, \\0, \delta < h,\end{cases} EMh={ 1,δh,0,δ<h,
    其中, δ \delta δ为大模型给出的结果与标准值之间的匹配比例, h h h为匹配度阈值,大于等于该阈值时,即 δ ≥ h \delta \geq h δh,判定为确切匹配,有 E M h = 1 EM_{h} = 1 EMh=1;小于该阈值时,即 δ < h \delta < h δ<h,不判定为确切匹配,有 E M h = 0 EM_h = 0 EMh=0

  2. F1 score. 这个指标为基于深度学习的方法常用的评价指标,也可被用于大模型的实际效果评估,
    F 1 = 2 × Precision × Recall Precision + Recall , F_1 = \frac{2\times \text{Precision}\times \text{Recall}}{\text{Precision}+\text{Recall}}, F1=Precision+Recall2×Precision×Recall,
    其中, Precision \text{Precision} Precision为精确率, Recall \text{Recall} Recall为召回率,其计算分别为
    Precision = T P T P + F P , Recall = T P T P + F N \text{Precision}=\frac{TP}{TP+FP}, \text{Recall}=\frac{TP}{TP+FN} Precision=TP+FPTP,Recall=TP+FNTP

    其中,TP(True positive)为真正例,TN(True nagative)为真负例,FP(False positive)为假正例,FN(False nagative)为假负例。简单来说就是预测正确的样本数量,除以全部的样本数量。即精确率可被解释为:在被识别为正类别的样本中,识别正确的比例。召回率可被解释为:在所有正类别样本中,被正确识别为正类别的比例

    对于一般的模型,精确率和召回率往往是此消彼长。也就是说,提高精确率通常会降低召回率,反之亦然。

    而F1 score则为比较综合性的指标,其脱胎于F值,其计算公式为
    F = ( 1 + a 2 ) × Precision × Recall a 2 × ( Precision + Recall ) , F = \frac{(1+a^2)\times \text{Precision}\times \text{Recall}}{a^2 \times (\text{Precision}+\text{Recall})}, F=a2×(Precision+Recall)(1+a2)×Precision×Recall,
    其中,权重因子 a a a的值取1时,即变为F1 score。

  3. ROUGE. 此指标有确切的来源论文,GOOGLE学术引用16046次[1],是学术界认可的评价指标之一。ROGUE是Recall-Oriented Understudy for Gisting Evaluation的简写,译为:基于召回率的主旨评估替补。原论文中主要介绍了4种ROGUE,分别为:ROUGE-N (N-gram Co-Occurrence Statistics, N-gram共现统计), ROUGE-L ( Longest Common Subsequence, LCS, 最长公共子序列), ROUGE-W ( Weighted Longest Common Subsequence, WLCS, 加权最长公共子序列)以及ROUGE-S ( Skip-Bigram Co-Occurrence Statistics, Skip-Bigram共现统计),其中最常用的为ROUGE-NROUGE-L,此处仅介绍这两种,其他种类请参阅原文[1].

    ROUGE-N的表达式为
    ROUGE-N = ∑ S ∈ { R e f e r e n c e S u m m a r i e s } ∑ g r a m n ∈ S Count m a t c h ( g r a m n ) ∑ S ∈ { R e f e r e n c e S u m m a r i e s } ∑ g r a m n ∈ S Count ( g r a m n ) , \text{ROUGE-N}=\frac{\sum_{S\in\{ReferenceSummaries\}}\sum_{gram_n\in S} \text{Count}_{match}(gram_n)}{\sum_{S\in\{ReferenceSummaries\}}\sum_{gram_n\in S}\text{Count}(gram_n)}, ROUGE-N=S{ ReferenceSummaries}gramnSCount(gramn)S{ ReferenceSummaries}gramnSCountmatch(gramn),
    其中, n n n为共现统计的长度,即统计对象的出现次数。 Count m a t c h ( g r a m n ) \text{Count}_{match}(gram_n) Countmatch(gramn)为大模型输出结果和一组参考真值中同时出现的n-gram共现统计的最大数量。 Count ( g r a m n ) \text{Count}(gram_n) Count(gramn)为参考结果中的n-gram共现统计总数量。

    ROUGE-L的表达式为
    ROUGE-L = LCS ( c a n d i d a t e , r e f e r e n c e ) length ( r e f e r e n c e ) , \text{ROUGE-L}=\frac{\text{LCS}(candidate,reference)}{\text{length}(reference)}, ROUGE-L=length(reference)LCS(candidate,reference)</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

空 白II

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值