残差检验_选择好模型:可以检验残差的分布

本文介绍了如何使用残差的频次直方图和卡方检验来评估模型的适用性。在95%的置信水平下,通过对33个实验残差的模型进行卡方拟合优度检验,得出模型与残差分布存在关联性。统计分析显示,模型30-41表现出较优的残差分布,可用于进一步的模型选择。
摘要由CSDN通过智能技术生成

f259810f7c3a2589323e6fdcb9c8a9fc.png

收到一位知友的求助:

我对一组模型进行了计算,获取了每个模型的残差,残差(misfit)的频次直方图如图一所示,现在有要求perform a goodness of fit test (using residuals and a chi2 distribution) and select models that pass the test at a certain confidence level (e.g., 95%). 这个我不是很明白怎么进行操作分析,能请您解答一下吗?

收到数据:

发现数据包含:60个模型,每一个模型有33个实验残差,如果通过残差分布来选择模型,需要我们完成第一步检验:模型与残差的相关性的检验,是我们能否根据残差来选择模型的依据;

f6ff694d9cfda20caf0edd832f33b0e0.png

这里我们选择用卡方检验,置信水平为95%;

假设检验:

原假设-模型与残差的频次分布没有关系

备择假设-模型与残差的频次分布有关系

1,统计描述(mode-模型,misfit-残差)

80e6bd9fdfb2dcae9472fd8ebe13567d.png
summary(misfit)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 0.3322  0.3888  0.4818  0.5033  0.5954  0.8329 

对misfit进行分组:优,良,差

 misfit>=0.3 and misfit<0.5 as 优 , 
 misfit>=0.5 and misfit<0.7 as 良, 
 misfit>=0.7 and misfit<0.9  as 差

2,得到模型分组数据

library(sqldf)
载入需要的程辑包:gsubfn
载入需要的程辑包:proto
载入需要的程辑包:RSQLite
Warning message:
程辑包‘RSQLite’是用R版本3.5.2 来建造的 
a<-sqldf("select X1 as mode, X2 as misfit from data")

a<-sqldf("select X1 as mode, count(1) as 实验次数, 
sum(case when X2>=0.3 and X2<0.5 then 1 else 0 end) as 优 ,
sum(case when X2>=0.5 and X2<0.7 then 1 else 0 end) as 良, 
sum(case when X2>=0.7 and X2<0.9 then 1 else 0 end) as 差 
from data group by X1")

4911d6071fc16fddc4df8fe5f2feb1d4.png

3,运用卡方拟合优度检验:模型的优劣与残差的相关行

chisq.test(a) ## 去除多余的列:实验次数

	Pearson's Chi-squared test

data:  a
X-squared = 211.04, df = 177, p-value = 0.04097

自由度为:177,p值:0.04097, 可以的到模型的优劣与残差具有相关性

由此,我们可以通过残差的分布来选择模型

得知:模型30-41都是比较优的模型。

如果要继续优中选优,可以对比模型残差变量的集中程度与离散度

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值