Friedman检验和Nemenyi检验，测试以及python实现

最新推荐文章于 2025-05-19 14:59:40 发布

原创最新推荐文章于 2025-05-19 14:59:40 发布 · 2w 阅读

CC 4.0 BY-SA版权

3 篇文章

订阅专栏

本文介绍如何使用Friedman检验和Nemenyi检验来比较不同学习算法的泛化性能，包括算法在多个数据集上的测试结果，以及如何通过这些检验确定算法性能的显著差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为了将不同的学习算法的泛化性能进行全面的比较，光靠学习器对某个数据集上的性度度量是不够的，我们需要用到假设检验，它为我们进行学习算法的比较提供了重要依据。

同时对于学习算法的比较，我们一般需要在多个数据集上比较多个算法的性能，这里常常采用Friedman检验和Nemenyi检验来进行比较。

1.Friedman检验

对于k个算法和N个数据集，首先得到每个算法在每个数据集上的测试性能结果，然后根据性能结果有好到坏排序，并给出序值1, 2, …, k，若多个算法性能结果相同，则它们平分序值，假设第i个算法的平均序值为ri，则ri服从正态分布：

则变量tF服从自由度为k-1和(k-1)(N-1)的F分布，假设这k个算法在N个数据集上的性能没有差异，若假设检验拒绝这个假设，则说明算法的性能显著不同，这时需要进行后续检验进一步区分各算法。

这里是Friedman的python实现：

2.Nemenyi检验

Nemenyi检验计算出平均序值差别的临界值域CD:

的值可以查看下表获得：

如果任意两个算法的序值差大于CD，则这两个算法性能有明显差异。

根据不同算法的结果排序，我们还可以进一步做Friedman图：

下面是我在十个数据集上调用sklearn库进行的测试（代码放在github上：https://github.com/aBadCat/machineLearning/tree/master/Friedman%26Nemenyi）：