大模型评价标准总结

大模型评价标准总结

1 算法自动评价

算法自动评价类中,根据各标准针对的算法不同特性,可分为准确度(Accuracy)、标定性(Calibration)、公平性(Fairness)以及鲁棒性(robustness)。其中包含的确切指标可细分如下:

1.1 准确度(Accuracy):

  1. exact match (EM). 这个指标可被译为确切匹配,是根据大模型给出的结果与标准值之间的匹配度来计算的,完全匹配时,EM值为1,不完全匹配时,EM值为0,但匹配比较呆板,可以设定一个阈值,来衡量完全匹配这个概念,比如:
    E M h = { 1 , δ ≥ h , 0 , δ < h , EM_{h} = \begin{cases}1, \delta \geq h, \\0, \delta < h,\end{cases} EMh={1,δh,0,δ<h,
    其中, δ \delta δ为大模型给出的结果与标准值之间的匹配比例, h h h为匹配度阈值,大于等于该阈值时,即 δ ≥ h \delta \geq h δh,判定为确切匹配,有 E M h = 1 EM_{h} = 1 EMh=1;小于该阈值时,即 δ < h \delta < h δ<h,不判定为确切匹配,有 E M h = 0 EM_h = 0 EMh=0

  2. F1 score. 这个指标为基于深度学习的方法常用的评价指标,也可被用于大模型的实际效果评估,
    F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l , F_1 = \frac{2\times Precision\times Recall}{Precision+Recall}, F1=Precision+Recall2×Precision×Recall,
    其中, P r e c i s i o n Precision Precision为精确率,Recall为召回率,其计算分别为
    Precision = T P T P + F P , Recall = T P T P + F N \text{Precision}=\frac{TP}{TP+FP},\\ \text{Recall}=\frac{TP}{TP+FN} Precision=TP+FPTP,Recall=TP+FNTP

    其中,TP(True positive)为真正例,TN(True nagative)为真负例,FP(False positive)为假正例,FN(False nagative)为假负例。简单来说就是预测正确的样本数量,除以全部的样本数量。即精确率可被解释为:在被识别为正类别的样本中,识别正确的比例。召回率可被解释为:在所有正类别样本中,被正确识别为正类别的比例

    对于一般的模型,精确率和召回率往往是此消彼长。也就是说,提高精确率通常会降低召回率,反之亦然。

    而F1 score则为比较综合性的指标,其脱胎于F值,其计算公式为
    F = ( 1 + a 2 ) × Precision × Recall a 2 × ( Precision + Recall ) , F = \frac{(1+a^2)\times \text{Precision}\times \text{Recall}}{a^2 \times (\text{Precision}+\text{Recall})}, F=a2×(Precision+Recall)(1+a2)×Precision×Recall,
    其中,权重因子 a a a的值取1时,即变为F1 score。

  3. ROUGE. ** 此指标有确切的来源论文,GOOGLE学术引用16046次[1],是学术界认可的评价指标之一。ROGUE是Recall-Oriented Understudy for Gisting Evaluation的简写,译为:基于召回率的主旨评估替补。原论文中主要介绍了4种ROGUE,分别为:ROUGE-N (N-gram Co-Occurrence Statistics, N-gram共现统计), ROUGE-L ( Longest Common Subsequence, LCS, 最长公共子序列), ROUGE-W ( Weighted Longest Common Subsequence, WLCS, 加权最长公共子序列)以及ROUGE-S** ( Skip-Bigram Co-Occurrence Statistics, Skip-Bigram共现统计),其中最常用的为ROUGE-NROUGE-L,此处仅介绍这两种,其他种类请参阅原文[1].

    ROUGE-N的表达式为
    ROUGE-N = ∑ S ∈ { R e f e r e n c e S u m m a r i e s } ∑ g r a m n ∈ S C o u n t m a t c h ( g r a m n ) ∑ S ∈ { R e f e r e n c e S u m m a r i e s } ∑ g r a m n ∈ S C o u n t ( g r a m n ) , \text{ROUGE-N}=\frac{\sum_{S\in\{ReferenceSummaries\}}\sum_{gram_n\in S} Count_{match}(gram_n)}{\sum_{S\in\{ReferenceSummaries\}}\sum_{gram_n\in S}Count(gram_n)}, ROUGE-N=S{ReferenceSummaries}gramnSCount(gramn)S{ReferenceSummaries}gramnSCountmatch(gramn),
    其中, n n n为共现统计的长度,即统计对象的出现次数。 C o u n t m a t c h ( g r a m n ) Count_{match}(gram_n) Countmatch(gramn)为大模型输出结果和一组参考真值中同时出现的n-gram共现统计的最大数量。 C o u n t ( g r a m n ) Count(gram_n) Count(gramn)为参考结果中的n-gram共现统计总数量。

    ROUGE-L的表达式为
    ROUGE-L = L C S ( candidate,reference ) length(reference) , \text{ROUGE-L}=\frac{LCS(\text{candidate,reference})}{\text{length(reference)}}, ROUGE-L=length(reference)LCS(candidate,reference),
    其中,( LCS )表示大模型输出结果和参考真值之间的最长公共子序列长度, length(reference)为参考真值自身的总长度。

1.2 标定性(Calibration):

  1. 期望标定误差 expected calibration error (ECE). 此指标有确切的来源论文,GOOGLE学术引用6015次[2],是学术公认的用于评价标准性的评价指标之一。在其原始论文中,主要被用于有监督神经网络的多分类问题效果评估。

    在讨论ECE的计算前,需要明确2个概念,**完美标定 ** (perfect calibration, PC) 和 可靠性图 (Reliability Diagrams, RD)。

    **完美标定 **是指实际的模型预测结果与其对预测结果的置信度完美契合。例如,某模型对100个输入样本进行了预测,其对每个预测的置信度均为0.8,则应该有80个样本的预测结果是正确的,即有:
    P ( Y ^ = Y ∣ P ^ = p ) = p , ∀ p ∈ [ 0 , 1 ] \mathbb{P}\left(\hat{Y}=Y\mid\hat{P}=p\right)=p,\quad\forall p\in[0,1] P(Y^=YP^=p)=p,p[0,1]
    其中, Y Y Y为预测结果, P P P为置信度。在实际中,完美标定是几乎不存在的。

    可靠性图 是一种用于评估分类模型校准程度的可视化工具。该指标通过将预测概率与实际准确率进行比较,帮助我们了解模型的预测置信度是否与实际结果一致。在可靠性图中,横轴表示预测的置信度(通常分为多个区间),纵轴表示这些区间内的平均准确率。理想情况下,模型的预测置信度应与实际准确率一致,即图中的点应落在对角线上。如果点偏离对角线,则表示模型的校准/标定存在问题。它的示例图是长这样的:
    在这里插入图片描述

    其主要计算机理为:

    将所有样本分为 M M M个区间,其中,标号为 m m m的区间中,每一份样本的预测置信度服从
    I m = ( m − 1 M , m M ] . I_m=(\frac{m-1}{M},\frac{m}{M}]. Im=(Mm1,Mm].
    如上图所示,一般有 M = 10 M = 10 M=10。令标号为 m m m的区间中,所有样本的标号集合为 B m B_m Bm,则有准确率
    acc ⁡ ( B m ) = 1 ∣ B m ∣ ∑ i ∈ B m 1 ( y ^ i = y i ) , \operatorname{acc}(B_m)=\frac{1}{|B_m|}\sum_{i\in B_m}\mathbf{1}(\hat{y}_i=y_i), acc(Bm)=Bm1iBm1(y^i=yi),
    其中, y ^ i \hat{y}_i y^i y i y_i yi分别为样本 i i i的预测值和真值。由上式可知,准确率为
    P ( Y ^ = Y ^ ∣ P ^ ∈ I m ) . \mathbb{P}(\hat{Y} = \hat{Y} | \hat{P} \in I_{m}). P(Y^=Y^P^Im).
    的无偏一致估计量(是指预测结果在大样本情况下不仅没有系统性偏差,而且能够准确地逼近真实参数值)。

    有鲁棒性可计算为
    conf ⁡ ( B m ) = 1 ∣ B m ∣ ∑ i ∈ B m p ^ i , \operatorname{conf}(B_m)=\frac{1}{|B_m|}\sum_{i\in B_m}\hat{p}_i, conf(Bm)=Bm1iBmp^i,
    其中, p ^ i \hat{p}_i p^i为样本 i i i的置信度。则准确率和鲁棒性指标分别为对 B m B_m Bm完美标定公式等号左侧和等号右侧的估计。因此,如果要达到完美标定,需要保证对任意 m = 1 , 2 , ⋯   , M m = 1, 2, \cdots, M m=1,2,,M均有
    acc ⁡ ( B m ) = conf ⁡ ( B m ) , ∀ m ∈ [ 1 , M ] . \operatorname{acc}(B_m) = \operatorname{conf}(B_m), \forall m \in [1, M]. acc(Bm)=conf(Bm),m[1,M].
    此时,期望标定误差ECE可计算为:
    E C E = ∑ m = 1 M ∣ B m ∣ n ∣ a c c ( B m ) − c o n f ( B m ) ∣ , \mathrm{ECE}=\sum_{m=1}^M\frac{|B_m|}{n}\bigg|\mathrm{acc}(B_m)-\mathrm{conf}(B_m)\bigg|, ECE=m=1MnBm acc(Bm)conf(Bm) ,
    其中, n n n为样本数量。

  2. 准确率-覆盖率AUC值 Area Under the Curve of selective accuracy and coverage (AUC). 本指标实际上是计算:将精确率作为纵坐标、覆盖率作为横坐标得到的曲线的AUC值。首先,需要明确**覆盖率(Coverage)**的定义与计算方式。其来源论文[3]的GOOGLE引用量为606次。

    覆盖率(Coverage) [4]的定义为:选择函数 g ( x ) g(x) g(x)取代基础分布 p p p后,计算出平均值。说人话就是本来样本的预测结果是直接给出的,但是此时多了一个选择函数 g ( x ) g(x) g(x),当模型对于当前样本的预测结果的置信度大于某个阈值时,才认为当前预测有效,而覆盖率的值则为,通过 g ( x ) g(x) g(x)选择后的样本数占总体样本的比例。也就是原本的预测结果(基础分布 p p p)被选择函数 g ( x ) g(x) g(x)破坏后的平均值。
    Φ ( f , g ) ≜ E [ g ( X ) ] . \Phi(f,g)\triangleq\mathbf{E}\left[g(X)\right]. Φ(f,g)E[g(X)].

1.3 公平性(Fairness):

  1. 分布均等差异 **Demographic Parity Difference (DPD). ** 该值主要衡量模型对不同组别的样本的预测性能差异[5],公式为
    D P D = P ( y ^ ∣ Z = 1 ) − P ( y ^ ∣ Z = 0 ) , \mathrm{DPD} = P(\hat{y}|Z=1)-P(\hat{y}|Z=0), DPD=P(y^Z=1)P(y^Z=0),
    其中, P ( y ^ ∣ Z = 1 ) = P r e c i s i o n ( y ^ ∣ Z = 1 ) P(\hat{y}|Z=1) = Precision(\hat{y}|Z=1) P(y^Z=1)=Precision(y^Z=1)是标号为1的组的精准率, P ( y ^ ∣ Z = 0 ) = P r e c i s i o n ( y ^ ∣ Z = 0 ) P(\hat{y}|Z=0) = Precision(\hat{y}|Z=0) P(y^Z=0)=Precision(y^Z=0)是标号为0的组的精准率。但是这个指标还是有改进空间的,对多个组别时,计算所有组别的差异,并取差别最大的两个组的准确率之差作为模型的整体分布均等差异。
    D P D M = max ⁡ i , j   [ P ( y ^ ∣ Z = i ) − P ( y ^ ∣ Z = j ) ] \mathrm{DPD}_M = \max_{i,j} \ [P(\hat{y}|Z=i)-P(\hat{y}|Z=j)] DPDM=i,jmax [P(y^Z=i)P(y^Z=j)]

  2. 均等机会差异 Equalized Odds Difference (EOD). 用于计算不同类型的预测之间,准确率的最大差异。这里的类型是由其是否属于TP, TN, FP, FN来进行区分的[6] (引用量4791次,是受到认可的指标)
    max ⁡ { P ( y ^ = 1 ∣ Y = 1 , Z = 1 ) − P ( y ^ = 1 ∣ Y = 1 , Z = 0 ) , P ( y ^ = 1 ∣ Y = 0 , Z = 1 ) − P ( y ^ = 1 ∣ Y = 0 , Z = 0 ) } \max\{P(\hat{y}=1|Y=1,Z=1)-P(\hat{y}=1|Y=1,Z=0),\\P(\hat{y}=1|Y=0,Z=1)-P(\hat{y}=1|Y=0,Z=0)\} max{P(y^=1∣Y=1,Z=1)P(y^=1∣Y=1,Z=0),P(y^=1∣Y=0,Z=1)P(y^=1∣Y=0,Z=0)}
    上式中, P ( y ^ = 1 ∣ Y = 1 , Z = 1 ) P(\hat{y}=1|Y=1,Z=1) P(y^=1∣Y=1,Z=1) 为TP, P ( y ^ = 1 ∣ Y = 1 , Z = 0 ) P(\hat{y}=1|Y=1,Z=0) P(y^=1∣Y=1,Z=0) 为TN, P ( y ^ = 1 ∣ Y = 0 , Z = 1 ) P(\hat{y}=1|Y=0,Z=1) P(y^=1∣Y=0,Z=1) 为FP, P ( y ^ = 1 ∣ Y = 0 , Z = 0 ) P(\hat{y}=1|Y=0,Z=0) P(y^=1∣Y=0,Z=0) 为FN。

1.4 鲁棒性(robustness):

  1. 攻击成功率 Attack Success Rate (ASR). 此指标衡量的是大模型在被攻击后,呈现出的鲁棒性[7]。给定数据集
    D = { ( x i , y i ) } i = 1 N \mathcal{D}=\{(x_i,y_i)\}_{i=1}^N D={(xi,yi)}i=1N
    其中包含 N N N个由输入样本 x i x_i xi和真值 y i y_i yi构成的样本对,则有
    A S R = ∑ ( x , y ∈ D ) I [ f ( A ( x ) ) ≠ y ] I [ f ( x ) = y ] , \mathrm{ASR}=\sum_{(x,y\in D)}\frac{I[f(\mathcal{A}(x))\neq y]}{I[f(x)=y]}, ASR=(x,yD)I[f(x)=y]I[f(A(x))=y],
    其中, A ( x ) \mathcal{A}(x) A(x)为攻击模型, f f f为受到检验的大模型。则ASR可定义为,攻击后给出错误输出的样本数,与攻击前给出正确输出的样本数之比。需要注意的是,攻击模型仅对攻击前给出正确输出的样本进行攻击。 I [ ⋅ ] I[\cdot] I[]为指示函数,用于确定输入值是否存在于某集合中。

    还有一个扩充的精算ASR(Curated ASR) 。所涉及的样本对,总是属于一个特定集合 D c \mathcal{D}_c Dc,且有
    Curated   ASR = ∑ ( x , y ) ∈ D I [ f ( A ( x ) ) ≠ y ] ⋅ I [ A ( x ) ∈ D c ] I [ f ( x ) = y ] . \textbf{Curated ASR}=\sum_{(x,y)\in\mathcal{D}}\frac{I[f(\mathcal{A}(x))\neq y]\cdot I[\mathcal{A}(x)\in\mathcal{D}_c]}{I[f(x)=y]}. Curated ASR=(x,y)DI[f(x)=y]I[f(A(x))=y]I[A(x)Dc].

  2. 性能损失率 Performance Drop Rate (PDR)。 性能损失率为经过一次prompt攻击后,大模型的性能损失值 [8]。计算公式为:
    P D R = 1 − ∑ ( x , y ) ∈ D M [ f ( [ A ( P ) , x ] ) , y ] ∑ ( x , y ) ∈ D M [ f ( [ P , x ] ) , y ] , PDR=1-\frac{\sum_{(x,y)\in D}M[f([A(P),x]),y]}{\sum_{(x,y)\in D}M[f([P,x]),y]}, PDR=1(x,y)DM[f([P,x]),y](x,y)DM[f([A(P),x]),y],
    其中, A ( P ) A(P) A(P)为针对提示(P的对抗攻击, M M M为针对当前任务的评价函数。APDR[8]为对同一prompt施加不同攻击后,得到的平均性能损失率。

小结

指标名称计算公式
EM E M h = { 1 , δ ≥ h , 0 , δ < h , EM_{h} = \begin{cases}1, \delta \geq h, \\0, \delta < h,\end{cases} EMh={1,δh,0,δ<h,
ROUGE-N ROUGE-N = ∑ S ∈ { R e f e r e n c e S u m m a r i e s } ∑ g r a m n ∈ S C o u n t m a t c h ( g r a m n ) ∑ S ∈ { R e f e r e n c e S u m m a r i e s } ∑ g r a m n ∈ S C o u n t ( g r a m n ) \text{ROUGE-N}=\frac{\sum_{S\in\{ReferenceSummaries\}}\sum_{gram_n\in S} Count_{match}(gram_n)}{\sum_{S\in\{ReferenceSummaries\}}\sum_{gram_n\in S}Count(gram_n)} ROUGE-N=S{ReferenceSummaries}gramnSCount(gramn)S{ReferenceSummaries}gramnSCountmatch(gramn)
ROUGE-L ROUGE-L = L C S ( candidate,reference ) length(reference) \text{ROUGE-L}=\frac{LCS(\text{candidate,reference})}{\text{length(reference)}} ROUGE-L=length(reference)LCS(candidate,reference)
ECEKaTeX parse error: Unexpected end of input in a macro argument, expected '}' at end of input: …m_{m=1}^M\frac{
AUCaccuracy versus coverage
DPD D P D M = max ⁡ i , j   [ P ( y ^ \mathrm{DPD}_M = \max_{i,j} \ [P(\hat{y} DPDM=maxi,j [P(y^
EOD max ⁡ { P ( y ^ = 1 ∣ Y = 1 , Z = 1 ) − P ( y ^ = 1 ∣ Y = 1 , Z = 0 ) , P ( y ^ = 1 ∣ Y = 1 , Z = 0 ) − P ( y ^ = 1 ∣ Y = 0 , Z = 0 ) \max\{P(\hat{y}=1 | Y=1,Z=1) - P(\hat{y}=1 | Y=1,Z=0), P(\hat{y}=1 | Y=1,Z=0) - P(\hat{y}=1 |Y=0,Z=0) max{P(y^=1∣Y=1,Z=1)P(y^=1∣Y=1,Z=0),P(y^=1∣Y=1,Z=0)P(y^=1∣Y=0,Z=0)
ASR A S R = ∑ ( x , y ∈ D ) I [ f ( A ( x ) ) ≠ y ] I [ f ( x ) = y ] \mathrm{ASR}=\sum_{(x,y\in D)}\frac{I[f(\mathcal{A}(x))\neq y]}{I[f(x)=y]} ASR=(x,yD)I[f(x)=y]I[f(A(x))=y]
PDR P D R = 1 − ∑ ( x , y ) ∈ D M [ f ( [ A ( P ) , x ] ) , y ] ∑ ( x , y ) ∈ D M [ f ( [ P , x ] ) , y ] PDR=1-\frac{\sum_{(x,y)\in D}M[f([A(P),x]),y]}{\sum_{(x,y)\in D}M[f([P,x]),y]} PDR=1(x,y)DM[f([P,x]),y](x,y)DM[f([A(P),x]),y]

2 人类客观评价

人类在对于大模型给定的输出进行评估时,主要是根据提前准备好的量表 [9],从不同维度对大模型的表现进行打分,类似于用户满意度调查表,只是这个调查表是针对不同大模型对同一个问题的回答的,具体可总结如下:

指标名称非常不同意不同意中立同意非常同意
答案准确
答案与主题相关
答案读起来通顺、流畅
模型思考过程清晰
答案内容违规
答案符合主流价值观

3 参考文献

[1] Lin, Chin-Yew. “Rouge: A package for automatic evaluation of summaries.” Text summarization branches out. 2004. [PDF]

[2] Guo, Chuan, et al. “On calibration of modern neural networks.” International conference on machine learning. PMLR, 2017. [PDF]

[3] Geifman, Yonatan, and Ran El-Yaniv. “Selective classification for deep neural networks.” Advances in neural information processing systems 30 (2017). [PDF]

[4] El-Yaniv, Ran. “On the Foundations of Noise-free Selective Classification.” Journal of Machine Learning Research 11.5 (2010). [PDF]

[5] Zemel, Rich, et al. “Learning fair representations.” International conference on machine learning. PMLR, 2013. [PDF]

[6] Hardt, Moritz, Eric Price, and Nati Srebro. “Equality of opportunity in supervised learning.” Advances in neural information processing systems 29 (2016). [PDF]

[7] Wang, Boxin, et al. “Adversarial glue: A multi-task benchmark for robustness evaluation of language models.” arXiv preprint arXiv:2111.02840 (2021). [PDF]

[8] Zhu, Kaijie, et al. “Promptbench: Towards evaluating the robustness of large language models on adversarial prompts.” arXiv preprint arXiv:2306.04528 (2023). [PDF]

. “Promptbench: Towards evaluating the robustness of large language models on adversarial prompts.” arXiv preprint arXiv:2306.04528 (2023). [PDF]

[9] Chang, Yupeng, et al. “A survey on evaluation of large language models.” ACM Transactions on Intelligent Systems and Technology 15.3 (2024): 1-45. [PDF]

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值