第五章:回归诊断

数据分析与R语言 第4周

2012.5.28

DATAGURU专业数据分析网站


 

假设检验原理

2012.5.28

DATAGURU专业数据分析网站

2


 

假设检验的原理

2012.5.28

DATAGURU专业数据分析网站

3


 

假设检验的原理

2012.5.28

DATAGURU专业数据分析网站

4


 

否定域

2012.5.28

DATAGURU专业数据分析网站

5


 

不否定<>正确

2012.5.28

DATAGURU专业数据分析网站

6


 

T分布密度函数

2012.5.28

DATAGURU专业数据分析网站

7


 

T分布密度函数

2012.5.28

DATAGURU专业数据分析网站

8


 

T检验法

2012.5.28

DATAGURU专业数据分析网站

9


 

lm()线性模型函数

n    y~1+x或y~x均表示y=a+bx有截距形式的线性模型

n   通过原点的线性模型可以表达为:y ~ x - 1 或y ~ x + 0 或 y ~ 0 + x

参见help(formula)

2012.5.28

DATAGURU专业数据分析网站

10


 

与线性模型有关的函数

建立数据:身高-体重

x=c(171,175,159,155,152,158,154,164,168,166,159,164)

y=c(57,64,41,38,35,44,41,51,57,49,47,46)

建立线性模型

a=lm(y~x)

求模型系数

> coef(a)

(Intercept)

x

-140.36436     1.15906

提取模型公式

> formula(a)

y ~ x

2012.5.28

DATAGURU专业数据分析网站

11


 

与线性模型有关的函数

计算残差平方和(什么是残差平方和)

> deviance(a)

[1] 64.82657

绘画模型诊断图(很强大,显示残差、拟合值和一些诊断情况)

> plot(a)

计算残差

> residuals(a)

         1          2          3          4          5          6          7 

-0.8349544  1.5288044 -2.9262307 -1.2899895 -0.8128086  1.2328296  2.8690708 

         8          9         10         11         12 

 1.2784678  2.6422265 -3.0396529  3.0737693 -3.7215322 

2012.5.28

DATAGURU专业数据分析网站

12


 

与线性模型有关的函数

打印模型信息

> print(a)

Call:

lm(formula = y ~ x)

Coefficients:

(Intercept)            x  

   -140.364        1.159 

2012.5.28

DATAGURU专业数据分析网站

13


 

与线性模型有关的函数

计算方差分析表

2012.5.28

DATAGURU专业数据分析网站

14


 

与线性模型有关的函数

提取模型汇总资料

2012.5.28

DATAGURU专业数据分析网站

15


 

与线性模型有关的函数

作出预测

> z=data.frame(x=185)

> predict(a,z)

      1 

74.0618 

> predict(a,z,interval="prediction", level=0.95)

      fit     lwr      upr

1 74.0618 65.9862 82.13739

课后阅读:薛毅书,p308,计算实例

2012.5.28

DATAGURU专业数据分析网站

16


 

多元线性相关分析

n   研究多个变量之间的关系

n   例子:iris数据集,研究花

瓣和花萼的长度、宽度之间

的联系

准备数据:

x=iris[which(iris$Species

=="setosa"),1:4]

画出散点图集:plot(x)

2012.5.28

DATAGURU专业数据分析网站

17


 

多元线性相关分析

n   计算相关系数矩阵,cor()函数

n   暂时没有发现可以在多元情况下进行相关性检验的函数,只能对变量两两进行检验

2012.5.28

DATAGURU专业数据分析网站

18


 

多元线性回归

n   Swiss数据集: Swiss Fertility and Socioeconomic Indicators (1888) Data

2012.5.28

DATAGURU专业数据分析网站

19


 

多元线性回归

建立多元线性模型

2012.5.28

DATAGURU专业数据分析网站

20


 

多元线性回归

模型汇总信息

2012.5.28

DATAGURU专业数据分析网站

21


 

多元线性回归

n   多元线性回归的核心问题:应该选择哪些变量?

n   一个非典型例子(薛毅书p325)

n   RSS(残差平方和)与R2(相关系数平方)选择法:遍历所有可能的组合,选出使RSS

最小,R  最大的模型

2

n   AIC(Akaike information criterion)准则与BIC (Bayesian information criterion

)准则

                                    AIC=n ln (RSSp/n)+2p

       n为变量总个数,p为选出的变量个数,AIC越小越好

2012.5.28

DATAGURU专业数据分析网站

22


 

多元线性回归

n   逐步回归

n   向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为止

n   向后剔除法:从全变量回归方程开始,逐步删去某个变量,使指标值达到最优为止

n   逐步筛选法:综合上述两种方法

2012.5.28

DATAGURU专业数据分析网站

23


 

多元线性回归

n    step( )函

2012.5.28

DATAGURU专业数据分析网站

24


 

多元线性回归

n   是否还有优化余地?

n   使用drop1作删除试探,使用add1函数作增加试探

2012.5.28

DATAGURU专业数据分析网站

25


 

多元线性回归

n   薛毅书,p330例子

2012.5.28

DATAGURU专业数据分析网站

26


 

FAQ时间

DATAGURU专业数据分析网站

27

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值