回归和分类模型性能评估指标MSE,MAE,PR,ROC,AUC

0. 模型评估是什么,为什么

  模型评估其本质是为了解决模型的泛化问题,由于各种原因,训练完成的模型可能会产生过拟合和欠拟合问题,因此需要对模型评估其泛化能力,并进行合适的参数调整以求得模型最优。
  为什么要进行模型评估?
  除了考虑到模型泛化能力的问题,同时也要兼顾不同业务场景下的业务指标不同。对于不同的业务场景,选择对应的评估指标,可以更加明确优化目标,从而使得模型达到一种实用业务场景的优化。

  总而言之,模型评估是为了模型调参服务,使得模型能够更好的用于实际的业务场景下。

1. 不同类型问题的评估指标

  如下图是所列不同问题类型的可能评估指标,我们将逐个介绍:

1.1 回归问题

  回归问题,在小蓝书P4的定义:输入和输出都是连续变量的预测问题。
  评估连续变量预测性能,有三种指标:

  1. MSE 均方误差
    M S E = 1 m ∑ i = 1 m ( y i − y ^ i ) 2 MSE = \frac{1}{m} \sum_{i=1}^{m}\left(y_{i}-\hat{y}_{i}\right)^{2} MSE=m1i=1m(yiy^i)2
    这个指标就是线性回归的最小二乘法损失函数,将其作为模型的预测性能评估指标,也是简单直观的。
  2. RMSE 均方根误差
    R M S E = 1 m ∑ i = 1 m ( y i − y ^ i ) 2 RMSE = \sqrt{\frac{1}{m} \sum_{i=1}^{m}\left(y_{i}-\hat{y}_{i}\right)^{2}} RMSE=m1i=1m(yiy^i)2
### 大型神经网络模型性能指标及其评估方法 对于大型神经网络模型而言,其性能不仅取决于单一的准确性度量,还需要综合考量多种评价标准以确保全面性。具体来说: #### 1. 分类任务中的多维度评估 除了常见的准确率(Accuracy),即正确预测样本数占总样本的比例外[^1],还应关注其他重要指标如精确率(Precision)、召回率(Recall) F1-score 等。 - **精确率 (Precision)** 表示被分类器判定为正类别的实例中有多少确实是真正的正类别; - **F1-Score** 是精确率召回率之间的调平均值,在两者之间寻求平衡。 ```python from sklearn.metrics import precision_score, recall_score, f1_score def evaluate_classification(y_true, y_pred): p = precision_score(y_true, y_pred, average='weighted') r = recall_score(y_true, y_pred, average='weighted') f1 = f1_score(y_true, y_pred, average='weighted') return {'precision':p,'recall':r,'f1':f1} ``` #### 2. 考虑更多样化的评估视角 针对不同类型的机器学习任务,还需引入特定领域的评估手段。例如,在处理不平衡数据集时,AUC-ROC曲线下的面积可以作为补充性的评判依据;而在回归分析场景下,则会涉及到均方误差(MSE),平均绝对误差(MAE)等统计学上的损失函数计算方式[^2]。 ```python from sklearn.metrics import roc_auc_score, mean_squared_error, mean_absolute_error def evaluate_regression(y_true, y_pred): mse = mean_squared_error(y_true, y_pred) mae = mean_absolute_error(y_true, y_pred) return {'mse':mse,'mae':mae} def evaluate_imbalanced_data(y_true, probas_pred): auc_roc = roc_auc_score(y_true, probas_pred) return {'auc_roc':auc_roc} ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值