如何科学地评估和评判深度学习模型？

最新推荐文章于 2024-08-04 21:32:36 发布

芷若初荨

最新推荐文章于 2024-08-04 21:32:36 发布

阅读量2k

点赞数 5

分类专栏： Python数据分析深度学习机器学习文章标签：统计显著性检验 F-test检验 Python Seaborn 模型评估

本文链接：https://blog.csdn.net/Cecilia620/article/details/102686311

版权

本文探讨了在深度学习模型性能评估中，如何运用统计显著性检验，如Student's t-test和F-test，来确定模型间的差异是否具有显著性。通过实例，展示了在Python和Seaborn库中实现F-test的过程，以及如何通过热力图可视化p值，以辅助模型选择。

摘要由CSDN通过智能技术生成

最近在考虑要发Paper，在模型的性能比较中，除了采用Precision/Recall的比较之外，为了进一步验证论文中的选择是存在可证明性的，因此考虑了使用F-test对多种模型算法进行统计显著性检验。

常见的模型评估与方法

误分率(misclassification rate)，即准确度。
精确率(precision)和召回率(recall)
计算F1
ROC曲线，ROC_AUC
k-fold cross-validation

以上这些方法都能为模型的评估和选择提供有利的帮助，但是有时候会存在几个模型精度相差不多，无法科学的评判选择的情况。此时，为了更进一步的检验其显著性，统计显著性检验的方法就起到很好的的作用。

常用的显著性检验方法

Student’s t-test

通过小样本来对总体均值或者总体之间均值的差异的推断通常使用t检验。
$假设X_1,X_2,...,X_n 遵循独立的分布 N(\mu,\sigma^2),i.e. 样本数量为n ，均值为 \mu ，方差为\sigma^2 .\\ 随机变量 \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} 有一个标准的正态分布。由于总体方差未知，可以通过样本方差来估计，但是对于小样本，\\ \frac{\overline{X}-\mu}{S/\sqrt{n}}不再服从正态分布，而是服从 Student's t-distribution(n-1).\\ 其中，样本方差为 S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2.得到的统计量t:\\ t=\frac{\overline{X}-\mu}{S/\sqrt{n}}\\ 随着n的增大，S逐渐趋近于\sigma,而t分布也越来越接近正态分布。$