数据挖掘方法(3)回归假设检验

一. 概要
       回归假设检验用于验证回归假设的正确性,有两大类分别为:

    1 图形化方法
          (1).显示残差的正态分布概率图
    (2).标准残差与拟合(预测)值对照图

  2 计算综合统计量
    

 二. 图形化方法
  
  2.1 显示残差的正态分布概率图
   
   是某种特殊分布(数据样本的分布)的分位点与标准正态分布的分位点组成的一种 分位数----分位数 的图.它可以用来判定特殊的分布是否偏离正态分布(类似百分数,分位数用来描述分布图上p%的值是否小于等于x p ).在一个正态分布图中,观察到分布率的值与从正态分布中得到的相同数量的值进行对比,如果分布式正态的,大部分点应该落到一条直线上,如果偏离直线便表明不正常。下图:
   
可以看到大量的数据点没有落在直线上,而是出现了一个清晰的曲线(反向S曲线),这表明它与正态分布是有偏差的。

2.2  残差---适配图

    一般过程是,如果正态概率分布图表明没有线性的系统误差,并且残差--是配图表明没有观察到特殊类型的残差图,说明没有图形化的证据证明违背了回归性假设,那么就可以开始进行回归分析。下图是某些图例:
    
  
  说明:
     图a 中显示一个“健康”图,没有观察到任何明显的特征,从左到右组成一个长方形。
     图b显示了含有曲率的曲线,它违背了独立性假设。
           因为独立性假设认为,其残差也是独立不相关的,但是图b残差图具有某种特征(类似y=x^2曲线)。
     图c给出了一个“漏斗”类型,它违反了恒定方差的假设。
           在图a中的变量,它在直方图中被表示出来,不管x的值是多少,它都不会改变。而在图c中,残差的变量比x的       最小值小,比x的最大值要大。它是变化的,因而违背了恒定方差的假设。(在图c中 在最左端,中间,最右边       分别画一条垂直x轴的直线,预估落在三条直线上的点的均值,都不一样,也即变化的)
     图d显示了从左到右递增的类型,违反了零均值的假设。
          零假设是指不管x的值是多少,误差项的均值都是零。然而图d中显示x取较小值时,残差均值小于零(左端,水       平线上方完全没有点),x取较大值时,残差均值大于零。违背了零均值假设,也违背了独立性假设
     
     

三.  非图形化方法

    ( 以下细节摘自http://blog.fens.me/r-density/
      检验单一样本是不是服从某一预先假设的特定分布的方法。以样本数据的累计频数分布与特定理论分布比较,若两者间的差距很小,则推论该样本取自某特定分布族。
  •   该检验原假设为

            H0:数据集符合weibull分布

             H1:样本所来自的总体分布不符合weibull分布

       令F0(x)表示预先假设的理论分布,Fn(x)表示随机样本的累计概率(频率)函数.

      统计量D为: D=max|F0(x) - Fn(x)|

        D值越小,越接近0,表示样本数据越接近weibull分布

        p值,如果p-value小于显著性水平α(0.05),则拒绝H0


    R语言演示代码和分析示例如下

        

    > set.seed(1)
    > S<-rweibull(1000,1)
    > ks.test(S, "pweibull",1)
    	One-sample Kolmogorov-Smirnov test
    data:  S
    D = 0.0244, p-value = 0.5928
    alternative hypothesis: two-sided
    结论: D值很小, p-value>0.05,不能拒绝原假设,所以数据集S符合shape=1的weibull分布


 其他检验的R包介绍摘自:http://blog.sina.com.cn/s/blog_65efeb0c0100htz7.html

  1  shapiro.test()
      可以进行关于正态分布的Shapiro-Wilk检验。即W检验,适用于样本含量n ≤50 时的正态性检验;
 2 nortest包
      lillie.test()可以实行更精确的Kolmogorov-Smirnov检验。
      ad.test()进行Anderson-Darling正态性检验。
      cvm.test()进行Cramer-von Mises正态性检验。
      pearson.test()进行Pearson卡方正态性检验。
      sf.test()进行Shapiro-Francia正态性检验。W′检验,于1972 年提出,适用于50 < n < 100 时的正态性检验
 3  fBasics包
      normalTest()进行Kolmogorov-Smirnov正态性检验。
      ksnormTest()进行Kolmogorov-Smirnov正态性检验。
      shapiroTest()进行Shapiro-Wilk's正态检验。
      jarqueberaTest()进行jarque-Bera正态性检验。
      dagoTest进行D'Agostino正态性检验。D检验,1971提出,正态性D检验该方法效率高,是比较精确的正态检验法
      gofnorm采用13种方法进行检验,并输出结果。

     

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值