数据分析与R语言 第4周 |
2012.5.28 |
DATAGURU专业数据分析网站 |
假设检验原理 |
2012.5.28 |
DATAGURU专业数据分析网站 |
2 |
假设检验的原理 |
2012.5.28 |
DATAGURU专业数据分析网站 |
3 |
假设检验的原理 |
2012.5.28 |
DATAGURU专业数据分析网站 |
4 |
否定域 |
2012.5.28 |
DATAGURU专业数据分析网站 |
5 |
不否定<>正确 |
2012.5.28 |
DATAGURU专业数据分析网站 |
6 |
T分布密度函数 |
2012.5.28 |
DATAGURU专业数据分析网站 |
7 |
T分布密度函数 |
2012.5.28 |
DATAGURU专业数据分析网站 |
8 |
T检验法 |
2012.5.28 |
DATAGURU专业数据分析网站 |
9 |
lm()线性模型函数 |
n y~1+x或y~x均表示y=a+bx有截距形式的线性模型 n 通过原点的线性模型可以表达为:y ~ x - 1 或y ~ x + 0 或 y ~ 0 + x 参见help(formula) |
2012.5.28 |
DATAGURU专业数据分析网站 |
10 |
与线性模型有关的函数 |
建立数据:身高-体重 |
x=c(171,175,159,155,152,158,154,164,168,166,159,164) |
y=c(57,64,41,38,35,44,41,51,57,49,47,46) |
建立线性模型 a=lm(y~x) 求模型系数 > coef(a) |
(Intercept) |
x |
-140.36436 1.15906 提取模型公式 > formula(a) y ~ x |
2012.5.28 |
DATAGURU专业数据分析网站 |
11 |
与线性模型有关的函数 |
计算残差平方和(什么是残差平方和) |
> deviance(a) |
[1] 64.82657 |
绘画模型诊断图(很强大,显示残差、拟合值和一些诊断情况) > plot(a) |
计算残差 |
> residuals(a) |
1 2 3 4 5 6 7 -0.8349544 1.5288044 -2.9262307 -1.2899895 -0.8128086 1.2328296 2.8690708 8 9 10 11 12 1.2784678 2.6422265 -3.0396529 3.0737693 -3.7215322 |
2012.5.28 |
DATAGURU专业数据分析网站 |
12 |
与线性模型有关的函数 |
打印模型信息 |
> print(a) |
Call: |
lm(formula = y ~ x) |
Coefficients: |
(Intercept) x -140.364 1.159 |
2012.5.28 |
DATAGURU专业数据分析网站 |
13 |
与线性模型有关的函数 |
计算方差分析表 |
’ |
2012.5.28 |
DATAGURU专业数据分析网站 |
14 |
与线性模型有关的函数 |
提取模型汇总资料 |
2012.5.28 |
DATAGURU专业数据分析网站 |
15 |
与线性模型有关的函数 |
作出预测 |
> z=data.frame(x=185) > predict(a,z) |
1 |
74.0618 |
> predict(a,z,interval="prediction", level=0.95) fit lwr upr 1 74.0618 65.9862 82.13739 课后阅读:薛毅书,p308,计算实例 |
2012.5.28 |
DATAGURU专业数据分析网站 |
16 |
多元线性相关分析 |
n 研究多个变量之间的关系 |
n 例子:iris数据集,研究花 瓣和花萼的长度、宽度之间 的联系 |
准备数据: |
x=iris[which(iris$Species =="setosa"),1:4] |
画出散点图集:plot(x) |
2012.5.28 |
DATAGURU专业数据分析网站 |
17 |
多元线性相关分析 |
n 计算相关系数矩阵,cor()函数 |
n 暂时没有发现可以在多元情况下进行相关性检验的函数,只能对变量两两进行检验 |
2012.5.28 |
DATAGURU专业数据分析网站 |
18 |
多元线性回归 |
n Swiss数据集: Swiss Fertility and Socioeconomic Indicators (1888) Data |
2012.5.28 |
DATAGURU专业数据分析网站 |
19 |
多元线性回归 |
建立多元线性模型 |
2012.5.28 |
DATAGURU专业数据分析网站 |
20 |
多元线性回归 |
模型汇总信息 |
2012.5.28 |
DATAGURU专业数据分析网站 |
21 |
多元线性回归 |
n 多元线性回归的核心问题:应该选择哪些变量? n 一个非典型例子(薛毅书p325) |
n RSS(残差平方和)与R2(相关系数平方)选择法:遍历所有可能的组合,选出使RSS |
最小,R 最大的模型 2 |
n AIC(Akaike information criterion)准则与BIC (Bayesian information criterion |
)准则 |
AIC=n ln (RSSp/n)+2p |
n为变量总个数,p为选出的变量个数,AIC越小越好 |
2012.5.28 |
DATAGURU专业数据分析网站 |
22 |
多元线性回归 |
n 逐步回归 |
n 向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为止 n 向后剔除法:从全变量回归方程开始,逐步删去某个变量,使指标值达到最优为止 n 逐步筛选法:综合上述两种方法 |
2012.5.28 |
DATAGURU专业数据分析网站 |
23 |
多元线性回归 |
n step( )函 |
数 |
2012.5.28 |
DATAGURU专业数据分析网站 |
24 |
多元线性回归 |
n 是否还有优化余地? |
n 使用drop1作删除试探,使用add1函数作增加试探 |
2012.5.28 |
DATAGURU专业数据分析网站 |
25 |
多元线性回归 |
n 薛毅书,p330例子 |
2012.5.28 |
DATAGURU专业数据分析网站 |
26 |
FAQ时间 |
DATAGURU专业数据分析网站 |
27 |