方差分析
基本理论
预测变量类型 | |||
反应变量类型 | 分类 | 连续 | 分类和连续 |
分类 | 逻辑回归分析 列联表分析 | 逻辑回归分析 | 逻辑回归分析 |
连续 | 方差分析 | 回归分析 | 协方差分析 |
y是连续 x是分类 用x预测y使用方差分析
方差分析(ANOVA)又称变异数分析或F检验,其功能就是推断两组或多组资料的总体均数是否相同,检验两个或多个样本的均数的差异是否有统计学意义,比如改进工艺后与改进工艺前钢材制造产生的误差
若F远大于1 说明各组均数间的差异没有统计学意义
方差分析模型
使用条件:
- 可比性
- 正态性 x要是服从正态分布
- 方差齐性
单因素方差分析
假设一项试验有多个影响因素,如果只有一个因素与响应变量有关,则称为单因素方差分析。
假设此实验有S个不同水平,在每一水平下作随机试验,可以得到S个总体 分别记做X1、X2、...Xs,各总体的平均数记做
u1、u2....us在s个总体服从正态分布且方差相等的情况下,假设检验为:
H0:u1=u2=...=us
显然当s=2时 就是单因素的两总体比较 如果 s>2是单因素的多重比较
油漆类型和亮度之间的关系
glm过程
proc glm data = ol.b_roads; class paint; 自变量相当于x model bright = paint;一个因素 means paint;可要可不要 在每个paint上对应y的也即bright的平均值 output out=check r=resid p=pred; r残差 看是否近似服从正态分布 p预测 title 'paint data: test differences between means'; run;
h0:均值都相同
模型有三个自由度 24是观测数 一共27个自由度
1770组间离差 1098组内离差 均方=平方和/自由度 f值 = 590/45 pvalue<0.0001
说明paint对应的四个不同水平上 亮度的均值不相同
检验产生的残差是否服从正态分布:
proc univariate data =check; var resid; histogram / normal; 检验直方图是否正态 probplot resid/normal (mu=est sigma=est w=1); title 'paint data: verify Normality'; run;
方差分析:
不仅仅可以解决不同水平之间差异的比较均值问题 还可以解决预测问题。