数据挖掘方法（3）回归假设检验

最新推荐文章于 2023-04-12 22:36:58 发布

春夏秋冬又一年

最新推荐文章于 2023-04-12 22:36:58 发布

阅读量2.6k

点赞数

分类专栏：数据挖掘算法简介

本文链接：https://blog.csdn.net/huangxia73/article/details/20229641

版权

数据挖掘算法简介专栏收录该内容

7 篇文章 2 订阅

订阅专栏

一. 概要

回归假设检验用于验证回归假设的正确性，有两大类分别为：

1 图形化方法

(1).显示残差的正态分布概率图

(2).标准残差与拟合（预测）值对照图

2 计算综合统计量

二. 图形化方法

2.1 显示残差的正态分布概率图

是某种特殊分布（数据样本的分布）的分位点与标准正态分布的分位点组成的一种分位数----分位数的图.它可以用来判定特殊的分布是否偏离正态分布（类似百分数，分位数用来描述分布图上p%的值是否小于等于x p ）.在一个正态分布图中，观察到分布率的值与从正态分布中得到的相同数量的值进行对比，如果分布式正态的，大部分点应该落到一条直线上，如果偏离直线便表明不正常。下图：

可以看到大量的数据点没有落在直线上，而是出现了一个清晰的曲线（反向S曲线），这表明它与正态分布是有偏差的。

2.2 残差---适配图

一般过程是，如果正态概率分布图表明没有线性的系统误差，并且残差--是配图表明没有观察到特殊类型的残差图，说明没有图形化的证据证明违背了回归性假设，那么就可以开始进行回归分析。下图是某些图例：

说明：

图a 中显示一个“健康”图，没有观察到任何明显的特征，从左到右组成一个长方形。

图b显示了含有曲率的曲线，它违背了独立性假设。

因为独立性假设认为，其残差也是独立不相关的，但是图b残差图具有某种特征（类似y=x^2曲线）。

图c给出了一个“漏斗”类型，它违反了恒定方差的假设。

在图a中的变量，它在直方图中被表示出来，不管x的值是多少，它都不会改变。而在图c中，残差的变量比x的最小值小，比x的最大值要大。它是变化的，因而违背了恒定方差的假设。（在图c中在最左端，中间，最右边分别画一条垂直x轴的直线，预估落在三条直线上的点的均值，都不一样，也即变化的）

图d显示了从左到右递增的类型，违反了零均值的假设。

零假设是指不管x的值是多少，误差项的均值都是零。然而图d中显示x取较小值时，残差均值小于零（左端，水平线上方完全没有点），x取较大值时，残差均值大于零。违背了零均值假设，也违背了独立性假设。

三. 非图形化方法

（以下细节摘自http://blog.fens.me/r-density/）

检验单一样本是不是服从某一预先假设的特定分布的方法。以样本数据的累计频数分布与特定理论分布比较，若两者间的差距很小，则推论该样本取自某特定分布族。

该检验原假设为

  H0:数据集符合weibull分布

H1:样本所来自的总体分布不符合weibull分布

令F0(x)表示预先假设的理论分布，Fn(x)表示随机样本的累计概率(频率)函数.

统计量D为: D=max|F0(x) - Fn(x)|

  D值越小，越接近0，表示样本数据越接近weibull分布

  p值，如果p-value小于显著性水平α(0.05)，则拒绝H0

R语言演示代码和分析示例如下：
```
> set.seed(1)
> S<-rweibull(1000,1)
> ks.test(S, "pweibull",1)
	One-sample Kolmogorov-Smirnov test
data:  S
D = 0.0244, p-value = 0.5928
alternative hypothesis: two-sided
```
结论: D值很小, p-value>0.05，不能拒绝原假设，所以数据集S符合shape=1的weibull分布

其他检验的R包介绍摘自：http://blog.sina.com.cn/s/blog_65efeb0c0100htz7.html

1 shapiro.test()
可以进行关于正态分布的Shapiro-Wilk检验。即W检验，适用于样本含量n ≤50 时的正态性检验;
2 nortest包
lillie.test()可以实行更精确的Kolmogorov-Smirnov检验。
ad.test()进行Anderson-Darling正态性检验。
cvm.test()进行Cramer-von Mises正态性检验。
pearson.test()进行Pearson卡方正态性检验。
sf.test()进行Shapiro-Francia正态性检验。W′检验,于1972 年提出,适用于50 < n < 100 时的正态性检验
3 fBasics包
normalTest()进行Kolmogorov-Smirnov正态性检验。
ksnormTest()进行Kolmogorov-Smirnov正态性检验。
shapiroTest()进行Shapiro-Wilk's正态检验。
jarqueberaTest()进行jarque-Bera正态性检验。
dagoTest进行D'Agostino正态性检验。D检验,1971提出,正态性D检验该方法效率高，是比较精确的正态检验法
gofnorm采用13种方法进行检验，并输出结果。

春夏秋冬又一年

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘方法（3）回归假设检验

一. 概要回归假设检验用于验证回归假设的正确性，本文用于验证回归假设的图形化方法有： 1. 显示残差的正态分布概率图 2. 标准残差与拟合（预测）值得图二正态分布概率图是某种特殊分布（数据样本的分布）的分位点与标准正态分布的分位点组成的一种分位数----分位数的图.它可以用来判定特殊的分布是否偏离正态分布（类似百分数
复制链接

扫一扫