最近在研究线性回归分析中如何评估一个模型能否较好的描述数据,除了正常评测预测值和观测值的总体偏差(也是我们优化方向),我们还会对预测值和观测值偏差分布进行分析。这里具体的原因是: 正常在进行回归分析时,我们都会设置一个系统噪声,我们一般会有一下假设[1]:
- 噪声与应变量 (response variable) 互相独立
- 噪声信号服从正太分布(mean = 0, var = 小值)
- 噪声在不同样本分类中的分布相同,并且服从正太分布(normal distribution)
那么正常在得出我们模型的预测值和观测值偏差分布时,我们希望验证一下我们建立模型时的假设还是否成立,这时候我们将应用到单因素方差分析(One-way ANOVA), 这里的单因素是指单个影响因素,一般指自变量,既然有单因素,是不是有多因素?答案是有的(Two-Way ANOVA & MANOVA), 多因素已超本篇内容,感兴趣的同学可以自己查阅相关资料。这里单因素方差分析主要目的是为了验证不同自变量分类中的应变量偏差的均值是否相同, 普遍的假设是多组偏差分布的均值相同(与t-test 的差异在于,t-test 一般用来对比两组样本)。
以下内容将分为三个部分,第一部分是单因素分析的理论部分,第二部分为具体样例分析,第三部分为样例代码
理论部分
既然单因素方差分析研究的是不同组内,因变量方差的均值是否相同,那么这里我们假设自变量( Ii ),即共有n组,每组中对应的应变量为( xij ), 该变量表示i组中j样本的值, 那么在单因素方差分析中,我们关心一下值:
- 组内样本平均值 meani=1m∑j=0,mIij
- 全局的平均值 grand_mean=1nm∑i=0,n;j=0,mIij
- 组间自由度为 n - 1, 组内自由度胃n* (m- 1)
- 组间方差 ∑i=0,nm∗(meani−gra