friedman test的原理及r实现

最新推荐文章于 2025-04-10 11:05:40 发布

斗南花卉市场

最新推荐文章于 2025-04-10 11:05:40 发布

阅读量1w

点赞数 22

本文链接：https://blog.csdn.net/sinat_40304087/article/details/119831088

版权

背景：

原理和步骤：

r实现：

背景：

写论文的过程中常常涉及到将自己模型的结果与其它模型相比较，有时候仅仅把两个（或多个）模型在若干个样本上的预测效果（例如准确率，rmse, mae等）列出来作对比是不够的，还需要说明这些模型的差异具有统计学意义，这样也能让文章更饱满和更具说服力。那么通过什么样的统计检验来说明模型之间的性能存在差异呢？可以使用friedman test。

原理和步骤：

friedman test是一个非参数检验，假设有3个算法a,b,c在数据集d1，d2，d3，d4上求预测准确率，得到如下的结果：

	算法a	算法b	算法c
数据集d1	100%	85%	90%
数据集d2	100%	80%	90%
数据集d3	95%	90%	90%
数据集d4	95%	80%	90%

那么，在每个数据集上将算法从好到坏排名，得到算法在各个数据上的名次，如果有多个算法在同一数据集上性能相同，则平分名次，得到名次表如下：

注意数据集d3中算法b和c的准确率相同，所以将2、3名平分给b和c，所以b和c的名次都是(2+3)/2=2.5。再计算各个算法在所有数据集上的平均名次，得到以下结果：

	算法a	算法b	算法c
平均名次	1	2.875	2.125

将3个算法的平均名次分别记为r1,r2,r3，那么friedman test的原假设h0就是“r1=r2=r3"，即三个算法的性能没有明显差异。friedman统计量可计算如下：

$\chi_{F}^2=\frac{12N}{k(k+1)}[\sum\limits_{j=1}^{k}r_{j}^2-\frac{k(k+1)^{2}}{4}]$

上式中N和k分别是数据集个数和算法个数，在本例中分别为4和3，rj就是第j个算法的平均名次，当原假设h0成立时，上述统计量服从自由度为k-1的卡方分布。计算这个统计量看它的p值，若p值小于显著性水平（通常为0.05或0.01），则拒绝原假设h0，此时可认为各个算法的性能存在显著差异。

r实现：

还是以上面得到的矩阵为例子：

algorithm_a<- c(1,1,0.95,0.95) #算法a在4个数据集中的准确率，下同
algorithm_b<- c(0.85,0.8,0.9,0.8) 
algorithm_c<- c(0.9,0.9,0.9,0.9) 
mat<- cbind(algorithm_a, algorithm_b, algorithm_c)
rownames(mat)<- c('d1', 'd2', 'd3', 'd4')
mat #这个就是我们要用的数据，注意这个数据必须是matrix类型数据，如果不是，
#则要使用as.matrix函数将其转换为matrix
result<- friedman.test(mat) #将friedman test的结果保存在result中
result$statistic #返回统计量
result$p.value #返回p值

结果如下：

> result$statistic
Friedman chi-squared 
                 7.6 
> result$p.value
[1] 0.02237077

可以看到，p值小于0.05，因此可以认为这3个算法在这4个数据集上的性能是有差异的。