一元回归
用一个变量的变化来预测另一个变量(连续变量)的变化,需要进行回归分析
一元线性回归: y = a + b x + e y=a+bx+e y=a+bx+e
判断自变量是否与因变量之间存在显著相关,以及整个方程的回归效果,必须依据回归分析输出的三个指标得到结论:
- 方差分析,方差分析中的F检验用于检验回归模型与数据的拟合程度。如果F值很大,其显著性水平小于0.05或0.01,表明回归方程是有意义的
- 回归系数显著性检验 如果回归系数 b b b显著,表明自变量与因变量之间存在显著的线性关系
- 决定系数 R 2 R^2 R2该指标来自于两个变量的偏相关系数的平方,它表示因变量的总变异中可由自变量解释的比例。如 R 2 = 0.70 R^2=0.70 R2=0.70,则表示因变量的变异中有70%是由自变量引起的
一元回归的F检验
将因变量 Y Y Y的总变异分解为两个部分:被解释的变异和未被解释的变异。被解释的变异是回归模型中的结构项或系统性变动,反映着自变量和因变量之间的线性关系;而未被解释的变异是回归模型中的随机项,它体现了来自变量之外的影响。利用这一关系,将回归平方和 S S R SSR SSR和残差平方和 S S E SSE SSE分别除以各自的自由度,就得到了回归均方 M S R MSR MSR和残差均方 M S E MSE MSE
在简单回归的情况下,只有一个自变量,故回归平方和 S S R SSR SSR的自由度为1。而对于残差平方和 S S E SSE SSE,需要以回归直线为基准进行计算,即对 ( y i − y i ^ ) (y_i- \hat{y_i}) (yi−yi^)进行估计。同时,由于决定这条直线需要截距和斜率两个参数,故自由度为 n − 2 n-2 n−2。另外 M S E MSE MSE是总体误差的方差的无偏估计
M S R = S S R 1 M S E = S S E n − 2 F = S S R / 1 S S E / ( n − 2 ) = M S R M S E MSR=\frac{SSR}{1}\\ ~ \\ MSE=\frac{SSE}{n-2} \\ ~ \\ F=\frac{SSR/1}{SSE/(n-2)} = \frac{MSR}{MSE} MSR=1SSR MSE=n−2SSE F=SSE/(n−2)SSR/1=MSEMSR
该统计量服从自由度为1和 n − 2 n-2 n−2的 F F F分布,因此可以直接用它做检验
决定系数
R 2 = S S R S S T = 1 − S S E S S T S S T = S S R + S S E R S S + E S S = T S S R^2 = \frac{SSR}{SST}=\frac{1-SSE}{SST} \\ ~ \\ SST=SSR+SSE \\ ~ \\ RSS+ESS=TSS R2=SSTSSR=SST1−SSE SST=SSR+