深度学习---评价指标

一、基础分类任务指标(二分类/多分类)

1. 混淆矩阵(Confusion Matrix)
  • 定义:n×n矩阵(n为类别数),行表示真实类别,列表示预测类别
  • 核心元素(以二分类为例):
    • TP(真正例):正类预测为正类
    • FP(假正例):负类预测为正类
    • FN(假负例):正类预测为负类
    • TN(真负例):负类预测为负类
      在这里插入图片描述
2. 基础性能指标(二分类)
  • 准确率(Accuracy)
    在这里插入图片描述

    适用场景:数据平衡时全局性能评估,缺陷是对不平衡数据不敏感

  • 精确率(Precision)(查准率):
    在这里插入图片描述

    意义:预测为正类中实际为正类的比例,关注“误判”问题

  • 召回率(Recall)(查全率/灵敏度Sensitivity):
    在这里插入图片描述

    意义:实际正类中被正确预测的比例,关注“漏判”问题

  • 特异度(Specificity)
    在这里插入图片描述

    意义:实际负类中被正确预测的比例,衡量对负类的识别能力

3. 综合指标(二分类)
  • F1分数
    在这里插入图片描述

    调和平均特性:平衡精确率与召回率,解决算术平均对极端值不敏感问题

  • P-R曲线(Precision-Recall Curve):

    • 横轴召回率,纵轴精确率,曲线下面积(AUC-PR)反映综合性能
    • 优势:在不平衡数据中比ROC曲线更有效
      在这里插入图片描述
  • ROC曲线(Receiver Operating Characteristic):
    在这里插入图片描述

    • AUC-ROC(曲线下面积):取值[0,1],0.5表示随机分类,1为完美分类
      在这里插入图片描述
4. 多分类扩展指标
  • 宏平均(Macro-average)
    对每个类别单独计算指标(如Precision),再取算术平均
    在这里插入图片描述

  • 微平均(Micro-average)
    全局计算TP、FP、FN后再计算指标
    在这里插入图片描述

  • 加权平均(Weighted-average)
    按每个类别的样本数加权平均
    在这里插入图片描述

二、回归任务指标

1. 绝对误差指标
  • 平均绝对误差(MAE)
    在这里插入图片描述

    特性:对异常值鲁棒性强

  • 平均绝对百分比误差(MAPE)
    在这里插入图片描述

    注意:y=0时无定义,需特殊处理

2. 平方误差指标
  • 均方误差(MSE)
    在这里插入图片描述

    特性:放大异常值影响,梯度计算友好(平方可导)

  • 均方根误差(RMSE)
    在这里插入图片描述

    优势:与预测值量纲一致,更易解释

3. 相对误差指标
  • 决定系数(R² Score)
    在这里插入图片描述

    意义:模型解释数据方差的比例,1表示完美预测,<0表示不如基线模型

三、序列与结构化输出任务指标

1. 自然语言处理(NLP)
  • BLEU分数(双语评估辅助):

    • 计算预测序列与参考序列的n-gram匹配度,常用于机器翻译

    • 公式:在这里插入图片描述

      (BP为长度惩罚因子,( P n P_n Pn)为n元组精确率)

  • ROUGE(召回导向文本相似度):

    • 基于召回率计算n-gram重叠,用于摘要任务
    • 包含ROUGE-1(单字)、ROUGE-2(双字)、ROUGE-L(最长公共子序列)
2. 计算机视觉(CV)
  • 交并比(IoU,Intersection over Union)

    • 目标检测/语义分割基础指标
      在这里插入图片描述

    • 扩展:mIoU(多类别平均IoU)

  • 平均精度均值(mAP,Mean Average Precision)

    • 目标检测核心指标:
      1. 对每个类别计算AP(P-R曲线下面积)
      2. 所有类别AP的平均值
    • 常带后缀(如mAP@0.5,mAP@[0.5:0.95])表示不同IoU阈值下的评估
3. 序列标注
  • 序列准确率(Sequence Accuracy):预测标签序列与真实完全一致的比例
  • 标记级别F1:每个位置独立计算F1后取平均(忽略序列顺序)

四、生成模型与复杂任务指标

1. 图像生成
  • inception分数(IS,Inception Score)

    • 基于预训练Inception模型,衡量生成图像的多样性(熵)和真实性(条件概率)
    • 公式:
      在这里插入图片描述
  • 弗雷歇初始距离(FID,Frechet Inception Distance)

    • 计算生成图像与真实图像在Inception特征空间的均值和协方差距离
    • 比IS更敏感于分布差异,避免模式崩溃问题
2. 文本生成
  • 困惑度(Perplexity):语言模型核心指标,衡量预测下一个词的不确定性
    在这里插入图片描述

  • 人工评估指标:如人类评分(Human Ratings)、ATEC(文本生成评估基准)

五、特殊场景与进阶指标

1. 不平衡数据处理
  • 几何平均(G-mean)
    在这里插入图片描述

    优势:平衡正负类召回率,适用于类别失衡场景

  • Cost-sensitive指标:引入误分类成本矩阵,计算加权误差
    在这里插入图片描述

2. 模型复杂度与效率
  • 参数量(Parameters):模型可训练参数总数,反映存储成本
  • 浮点运算量(FLOPs):每秒浮点运算次数,衡量计算复杂度
  • 推理速度(Latency):单样本前向传播时间(ms/样本),受硬件影响
  • 内存占用(Memory Usage):运行时显存/内存消耗,影响部署可行性
3. 鲁棒性与安全性
  • 对抗鲁棒性指标
    • 对抗样本成功率(Adversarial Success Rate)
    • 干净样本 vs 对抗样本的准确率下降幅度
  • 对抗训练评估:在FGSM、PGD等攻击下的性能保持能力
4. 长尾分布与少样本学习
  • 长尾指标:评估稀有类别上的Recall@K、F1-score
  • 小样本指标:Few-shot场景下的元学习准确率、遗忘曲线

六、多任务与多输出指标

1. 多任务学习
  • 联合指标:对每个任务指标加权平均(如分类准确率+回归MSE)
  • 任务平衡度:各任务性能方差,避免优势任务主导优化
2. 多标签分类(每个样本可属多个类别)
  • 标签级别指标:对每个标签独立计算Precision/Recall,再取宏/微平均
  • 样本级别指标
    • 汉明损失(Hamming Loss):错误标签比例
      在这里插入图片描述

      (Δ为对称差集,c为总标签数)

七、指标选择原则与陷阱

  1. 任务匹配:分类用准确率/F1,回归用MSE/R²,生成用FID/IS
  2. 数据分布:不平衡数据避免单纯依赖准确率,使用G-mean或加权指标
  3. 业务导向:医疗场景优先Recall(减少漏诊),推荐系统优先Precision(减少误推)
  4. 多指标组合:单一指标无法全面评估,需结合业务目标构建指标体系
  5. 避免指标欺骗:高准确率可能掩盖类别不平衡问题,AUC-ROC在极度不平衡时可能虚高

八、前沿扩展(研究级指标)

  • 校准误差(Calibration Error):模型置信度与实际准确率的一致性,如ECE(Expected Calibration Error)
  • 公平性指标:不同子群体间的性能差异(如性别/种族的分类准确率差异)
  • 可解释性指标:显著性图的像素重要性分布、模型决策的逻辑一致性
  • 时间序列指标:动态时间规整(DTW)距离、自相关函数匹配度

总结

深度学习评价指标体系需根据任务类型(分类/回归/生成)、数据特性(平衡/不平衡/长尾)、应用场景(医疗/推荐/安全)综合选择。核心是理解每个指标的数学定义、适用边界及业务含义,避免单一指标依赖,构建多维评估框架。实际应用中,常需结合领域知识设计定制化指标(如语音识别的WER,视频理解的mAP@N帧),并注意指标与优化目标的一致性(如优化MSE时R²可能非单调变化)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值