ROC与AUC，DET与EER，minDCF，Identification Accuracy

DEDSEC_Roger

已于 2022-12-16 21:00:15 修改

阅读量534

点赞数 1

分类专栏：语音技术文章标签：深度学习人工智能音频

于 2022-12-13 20:49:50 首次发布

本文链接：https://blog.csdn.net/m0_46324847/article/details/128302402

版权

语音技术专栏收录该内容

23 篇文章 38 订阅

订阅专栏

为什么需要这些指标

对于两个说话人识别系统，我们希望比较它们的性能
比较它们的性能，我们需要这些性能指标
必须使用同一个评价集（Evaluation Set），并且指标的具体实现一致，比较才是有意义的
系统A可能在一个评价集上性能优于系统B，也可能在另一个评价集上性能劣于系统B

评价集

原则
- 训练集中出现的话语（Utterances），不得出现在评价集中
- 训练集中出现的说话人（Speakers），不得出现在评价集中
两种类型
- 基于样本对的评价
- 基于集合的评价

基于样本对的评价

选取一系列样本对
对于每个样本对，要求：
- 有两段话语
- 有一个二值标签，表示这两段话语来自同一个说话人（为正样本，用1表示），或来自不同的说话人（为负样本，用0表示）
例子：VoxCeleb官方样本对

基于集合的评价

在许多现实应用中，用户常常会提供多段话语用于注册
为了更好的模拟这个过程，我们可以用基于集合的评价来评价说话人识别系统
评价集会被分为两个子集：
- 注册集
- 验证集
这两个子集覆盖同一范围的说话人，但是采用不同的话语代表每个说话人
步骤：
1. 使用注册集，用说话人编码器（训练出来的模型），从所有说话人的话语中，提取出嵌入码，由于每个说话人有多端话语，因此需要将每个说话人的多个嵌入码，聚合成一个speaker profile
2. 使用验证集，采样出话语，与之前得到的speaker profile一一对比，得到样本对，来自同一个说话人则为正样本，来自不同的说话人则为负样本
3. 通常负样本远多于正样本，因此需要对负样本做下采样
基于集合的评价，各集合示意图（图源：语音之家）：

可见：训练集和评估集中的说话人是不同范围的，评估集中的两个子集中的说话人是同一范围的，但是同一说话人的话语，不在两个子集中重复。

假阳率和假阴率

对于每一个样本对，系统得到的结果可以分为四类：

Ground Truth	Prediction	Result
1	1	True Accept
1	0	False Reject / Type II Error
0	1	False Accept / Type I Error
0	0	True Reject

假阳率：在所有的负样本中，发生错误接受的比例
$\frac{FA}{FA + TR} =\frac{FA}{False}$
假阴率：在所有的正样本中，发生错误拒绝的比例
$\frac{FR}{FR + TA} =\frac{FA}{True}$

错误与阈值

通过将相似度得分与阈值进行比较，系统才可以得出结果，此时的阈值也被称为操作点
当阈值升高，所有接受率下降，所有拒绝率上升
由于FAR和FRR都基于阈值才能得到，所以无法直接比较两个系统的FAR和FRR
要比较两个系统，需要与阈值无关的性能指标

ROC（Receiver Operating Characteristic）曲线

遍历阈值的所有可能取值（如：[0, 1]），并且记录每个取值的FAR和TAR，将FAR作为横坐标，TAR作为纵坐标
将这些点，画到二维平面上，将得到一条单调递增的曲线，如下：
利用ROC曲线比较系统性能：
- 对角线y=x（图中虚线）为随机猜测的结果，即对每个阈值，系统都判定一半样本为正，另一半样本为负
- 曲线越靠近左上角，性能越好
- 可以用AUC（Area Under Curve，ROC曲线下方的面积大小）来度量系统的性能，越大越好，取值[0, 1]
缺点：计算AUC时，不同的阈值分辨率，会带来较大的结果浮动

DET（Detection Error Tradeoff）曲线

DET曲线和ROC曲线关系紧密：横坐标都是FAR，但DET的纵坐标的FRR，ROC的纵坐标是TAR，比较如下：
DET曲线尝试用对数刻度，从而看起来更接近直线
利用DET曲线比较系统性能：
- 曲线越靠近左下角，性能越好
- 在DET曲线中，绘制对角线，得到与曲线的交点，该点的FAR与FRR相等（理想状态下），将此点的FAR和FRR的值称为EER（Equal Error Rate，等错误率），将此点对应的阈值称为EER阈值
- 可以用EER来度量系统的性能，越小越好，取值[0, 1]
EER的计算
1. 由于阈值的分辨率有限，不一定能找到刚好使FAR和FRR相等的阈值
2. 转而寻找距离对角线最近的点，然后以对角线为对称中心，得到对称点，连接对称点得到线段，线段与对角线的交点就是EER点
3. 代码

import csv

def ComputeEER():
    """Compute the Equal Error Rate from the data in scores.csv
    
    Returns:
        a floating point number for the equal error rate (between 0 and 1)
    """
    labels = []
    scores = []
    with open("coding5\scores.csv", newline='') as csvfile:
        spamreader = csv.reader(csvfile, delimiter=',', quotechar='|')
        for row in spamreader:
            labels.append(int(row[0]))
            scores.append(float(row[1]))

    positive = 0
    negative = 0
    for label in labels:
        if 1 == label:
            positive += 1
        else:
            negative += 1

    th = 0
    eer = 1
    eer_th = 0
    min_delta = 1
    while th <= 1:
        true_accept = 0
        true_reject = 0
        false_accept = 0
        false_reject = 0
        for i in range(len(scores)):
            if scores[i] < th:
                if 0 == labels[i]:
                    true_reject += 1
                else:
                    false_reject += 1
            else:
                if 1 == labels[i]:
                    true_accept += 1
                else:
                    false_accept += 1

        far = false_accept / negative
        frr = false_reject / positive
        delta = abs(far - frr)
        if delta < min_delta:
            min_delta = delta
            eer_th = th
            eer = (far + frr) / 2

        th += 0.005

    return eer

其中，csv文件为：

注意：必须要先寻找使 $ab s (F A R - FRR)$ 最小的点，然后取 $\frac{FAR+FRR}{2}$ ，而不能直接取使 $\frac{FAR + FRR}{2}$ 最小的点，数学理由：

点到直线距离公式：
$\frac{|Ax_0 + By_0 + C|}{\sqrt{A^2 + B^2} }$
其中，点为 $x_0,y_0)$ ，直线为 $A x + B y + C = 0$ 。现在代入直线 $x - y = 0$ ，点 $(F A R, FRR)$ ，得：
$\frac{|FAR - FRR|}{\sqrt{2}}$
当 $ab s (F A R - FRR)$ 最小时， $d$ 最小，设此时的点为 $FAR_0,FRR_0)$ 。
过点 $FAR_0,FRR_0)$ 作对角线的垂线，垂线的方程为：
$x + y - FAR_0 - FRR_0 = 0$
与 $x - y = 0$ 联立，得到交点 $(\frac{FAR_0 + FRR_0}{2},\frac{FAR_0 + FRR_0}{2} )$ ，因此 $\frac{FAR_0 + FRR_0}{2}$ 。
若直接取使 $\frac{FAR + FRR}{2}$ 最小的点，结果会偏小，如下图所示：
缺点，EER只能反映DET曲线的局部特性，没有反映出DET曲线的整体形状，如下图所示，蓝色曲线整体更偏左下，但是EER高于红色曲线：

minDCF（Minimum Detection Cost Function，最小检测代价函数）

不同的实际应用对不同类型的错误有不同的容忍程度，可以理解为不同类型的错误带来的风险不相同
例如：
- 安全类应用：错误接受率过高是几乎不可容忍的，因此错误接受的风险更大
- 唤醒类应用：错误拒绝率过高会导致较差的用户体验，因此错误拒绝的风险更大。而错误接受可以只开放部分权限，或者根据用户的进一步操作来交叉验证用户身份
DCF的公式：
$C_{Det} = C_{FR} \cdot FRR \cdot P_{T} + C_{FA} \cdot FAR \cdot P_{I}$
其中：
- $C_{FR}$ 是错误拒绝的代价
- $P_{T}$ 是出现真实说话人的先验概率
- $C_{FA}$ 是错误接受的代价
- $P_{I}$ 是出现仿冒说话人（Imposter）的先验概率
minDCF指：寻找使DCF取得最小值的阈值

Identification Accuracy（辨认准确率）

上述AUC、EER。minDCF都是针对说话人验证定义的性能指标
对于说话人辨认任务，需要使用Identification Accuracy（辨认准确率）来评价
步骤：
1. 对每个样本，构造(k+1)个数据，其中k个数据为用于注册的说话人话语，1个为待辨认的话语
2. k个用于注册的说话人，必须包含待辨认的话语所属的说话人
3. 系统将待辨认的话语，与k个用于注册的话语分别计算相似度得分，得分最高的两段话语属于同一个说话人为辨认成功，否则辨认失败
4. 计算辨认成功的样本，占总样本的比例，即为辨认准确率
对于同一个系统，通常k越大，辨认准确率越低