简介
用途:研究两个具有线性关系的变量之间的关系。
一元线性回归分析模型:Y=β0+β1X+ϵ
- Y 是因变量。
- X 是自变量。
- β0 是截距项。
- β1 是斜率,表示XX变化一个单位时YY的平均变化量。
- ϵ 是误差项,表示模型无法解释的随机变异。
判定系数R2:评估回归模型的拟合效果。值越接近1,说明拟合效果越好;值越接近0,说明拟合效果越差。
案例:家庭收支关系的回归分析
原始数据
方法1:利用散点图、趋势线进行回归分析
1)插入散点图后,添加趋势线
2)设置趋势线格式,勾选显示公式、显示R平方线
3)最终结果
回归方程为:y=0.609167x+152。
判定系数为:R2=0.999。说明拟合很好,回归线可帮助数据解释的部分占到了99.9%。
方法2:利用【数据分析】工具进行回归分析
1)点击【数据>数据分析】,选择【回归】后点确定。
2)设置输入、输出,勾选线性拟合图,点击确认。
注意第一行为Y值范围,第二行为X值范围
得到以下结果:
3)数据解析:
- 回归统计:
- Multiple R:0.99989,这是相关系数,表示自变量和因变量之间的线性关系的强度。接近1的值表示非常强的正相关。
- R Square:0.99978,这是决定系数,表示因变量的变异中有多少是由自变量解释的。接近1的值表示模型解释了几乎所有的变异。
- Adjusted R Square:0.99975,这是调整后的决定系数,考虑了模型中自变量的数量。它提供了一个更准确的模型拟合度量,特别是当模型中包含多个自变量时。
- 标准误差:5.32291,这是实际观测值与回归线预测值之间差异的标准差。较小的标准误差表示模型的预测更准确。
- 观测值:9,这是用于回归分析的数据点的数量。
- 方差分析(ANOVA):
- 回归分析:
- df(自由度):1
- SS(平方和):890602
- MS(均方):890602
- F(F统计量):31433
- P-value(P值):4.8E-14,这是一个非常小的值,表示模型在统计上是显著的,自变量对因变量有显著影响。
- 残差:
- df(自由度):7
- SS(平方和):198.333
- MS(均方):28.3333
- 总计:
- df(自由度):8
- SS(平方和):890800
- 系数:
- Intercept(截距):152,这是当自变量为0时因变量的预测值。
- X Variable(自变量系数):0.60917,这是自变量每变化一个单位时因变量的变化量。
- 标准误差:分别为截距和自变量系数的标准误差。
- t Stat(t统计量):分别为截距和自变量系数的t统计量。
- P-value(P值):分别为截距和自变量系数的P值,都非常小,表示这些系数在统计上是显著的。
- Lower 95% 和 Upper 95%:这些是截距和自变量系数的95%置信区间。
- X Variable 1 Line Fit Plot:
- 这是一个散点图,显示了自变量(X Variable 1)和因变量(Y)之间的关系,以及最佳拟合线。最佳拟合线的方程是 y=0.6092x+152。
总结来说,这些数据表明自变量和因变量之间存在非常强的正线性关系,回归模型非常显著,并且可以很好地预测因变量的值。
4)图表添加趋势线,勾选显示公式、显示R平方值。
回归方程为:y=0.6092x+152。
判定系数为:R2=1,说明拟合很好。