如何科学地评估和评判深度学习模型?

最近在考虑要发Paper,在模型的性能比较中,除了采用Precision/Recall的比较之外,为了进一步验证论文中的选择是存在可证明性的,因此考虑了使用F-test对多种模型算法进行统计显著性检验。

常见的模型评估与方法

  • 误分率(misclassification rate),即准确度。
  • 精确率(precision)和召回率(recall)
  • 计算F1
  • ROC曲线,ROC_AUC
  • k-fold cross-validation

以上这些方法都能为模型的评估和选择提供有利的帮助,但是有时候会存在几个模型精度相差不多,无法科学的评判选择的情况。此时,为了更进一步的检验其显著性,统计显著性检验的方法就起到很好的的作用。

常用的显著性检验方法

Student’s t-test

通过小样本来对总体均值或者总体之间均值的差异的推断通常使用t检验
假 设 X 1 , X 2 , . . . , X n 遵 循 独 立 的 分 布 N ( μ , σ 2 ) , i . e . 样 本 数 量 为 n , 均 值 为 μ , 方 差 为 σ 2 . 随 机 变 量 X ‾ − μ σ / n 有 一 个 标 准 的 正 态 分 布 。 由 于 总 体 方 差 未 知 , 可 以 通 过 样 本 方 差 来 估 计 , 但 是 对 于 小 样 本 , X ‾ − μ S / n 不 再 服 从 正 态 分 布 , 而 是 服 从 S t u d e n t ′ s t − d i s t r i b u t i o n ( n − 1 ) . 其 中 , 样 本 方 差 为 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ‾ ) 2 . 得 到 的 统 计 量 t : t = X ‾ − μ S / n 随 着 n 的 增 大 , S 逐 渐 趋 近 于 σ , 而 t 分 布 也 越 来 越 接 近 正 态 分 布 。 假设X_1,X_2,...,X_n 遵循独立的分布 N(\mu,\sigma^2),i.e. 样本数量为n ,均值为 \mu ,方差为\sigma^2 .\\ 随机变量 \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} 有一个标准的正态分布。由于总体方差未知,可以通过样本方差来估计,但是对于小样本,\\ \frac{\overline{X}-\mu}{S/\sqrt{n}}不再服从正态分布,而是服从 Student's t-distribution(n-1).\\ 其中,样本方差为 S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2.得到的统计量t:\\ t=\frac{\overline{X}-\mu}{S/\sqrt{n}}\\ 随着n的增大,S逐渐趋近于\sigma,而t分布也越来越接近正态分布。 X1,X2,...,XnN(μ,σ2),i.e.nμ

  • 5
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评判一个机器学习模型好坏的标准和各项指标有很多,以下是一些常见的指标: 1. 准确率(Accuracy):分类正确的样本数占总样本数的比例,适用于二分类和多分类问题。 2. 精确率(Precision):预测为正例的样本中,实际为正例的样本数占所有预测为正例的样本数的比例,适用于需要准确预测正例的问题。 3. 召回率(Recall):实际为正例的样本中,被预测为正例的样本数占所有实际为正例的样本数的比例,适用于需要尽可能找出所有正例的问题。 4. F1-score:综合考虑了精确率和召回率,是精确率和召回率的调和平均数。 5. ROC曲线:以假正例率(false positive rate,FPR)为横坐标,真正例率(true positive rate,TPR)为纵坐标,绘制出的曲线。曲线下面积AUC(Area Under Curve)越大,模型性能越好。 6. 混淆矩阵(Confusion Matrix):将实际结果和预测结果进行分类统计的矩阵。可以通过混淆矩阵计算出准确率、精确率、召回率等指标。 7. 均方误差(Mean Squared Error,MSE):回归问题中,预测值与实际值之间差的平方和的均值。 8. 均方根误差(Root Mean Squared Error,RMSE):回归问题中,均方误差的平方根。 9. 平均绝对误差(Mean Absolute Error,MAE):回归问题中,预测值与实际值之间差的绝对值的均值。 10. R^2(决定系数):回归问题中,模型的可决系数,表示模型对数据的拟合程度。R^2越接近1,模型的拟合程度越好。 不同的问题和场景需要使用不同的指标来评估模型的好坏。需要根据具体的需求和情况来选择合适的评估指标。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值