线性回归模型简介
![c9755a0d588c719a612c91f1441c4b51.png](https://img-blog.csdnimg.cn/img_convert/c9755a0d588c719a612c91f1441c4b51.png)
相关分析与回归分析的联系与区别
本节考察两个连续变量间的联系。通过回归方程解释两变量之间的关系显得更为精确。另外,通过回归方程还可以进行预测(y)和控制(x)。
简单回归分析的原理和要求:
![ad76b4e9d5fe1dad743ae568308e2447.png](https://img-blog.csdnimg.cn/img_convert/ad76b4e9d5fe1dad743ae568308e2447.png)
重要:t检验和方差分析,用来检验求出不为0的回归系数并不是由于抽样误差而引起的。
![c9755a0d588c719a612c91f1441c4b51.png](https://img-blog.csdnimg.cn/img_convert/c9755a0d588c719a612c91f1441c4b51.png)
总体回归线的可信区间
95%区间:在满足线性回归假设条件下,两条弧线曲线所形成的区域包含真实总体回归直线的置信度的95%。
![c9755a0d588c719a612c91f1441c4b51.png](https://img-blog.csdnimg.cn/img_convert/c9755a0d588c719a612c91f1441c4b51.png)
个体Y预测的区间估计
指当X为特定某值时,个体Y值的参考值范围的波动范围。该区间是由比总体回归线置信区间带更远离的两条弧线曲线构成的,表示期望有95%的数据点所落入的范围。
![c9755a0d588c719a612c91f1441c4b51.png](https://img-blog.csdnimg.cn/img_convert/c9755a0d588c719a612c91f1441c4b51.png)
两连续变量的线性回归模型的适用条件
(1)线性趋势:自变量与因变量的关系是线性的,可通过散点图来判断;
(2)独立性:因变量y的取值相互独立的,之间没有联系。就是要求残差间相互独立,不存在自相关性,否则应采用自回归模型;
(3)正态性:因变量y均服从正态分布,即要求残差服从正态分布;
(4)方差齐性:自变量的任何线性组合中,因变量的方差均相同。即残差的方差要齐性。
注意:如果说只需要探讨自变量与因变量间的关系,而不需要根据自变量的取值预测因变量的区间,则正态性和方差齐性两个可以放宽。
回归关系并不一定代表两者有因果关系。
![c9755a0d588c719a612c91f1441c4b51.png](https://img-blog.csdnimg.cn/img_convert/c9755a0d588c719a612c91f1441c4b51.png)
案例
建立用年龄预测总信心指数值的回归方程
步骤:(1):做散点图,可看出年龄与信心指数之间存在线性关系
步骤(2):“分析”——“回归”——“线性”,即可以打开“线性回归”对话框。
![fc8efe8cf7e8449629f1764eb8df407a.png](https://img-blog.csdnimg.cn/img_convert/fc8efe8cf7e8449629f1764eb8df407a.png)
“因变量”:选入回归分析模型中的因变量,只能选入一个;
“自变量”:选入回归分析模型中的自变量;
“方法”:用于选择对自变量的选入方法,包括“进入”,“后退”,“逐步”等方法;
“选择变量”:实际是进行案例筛选,选入筛选变量,并利用右侧“规则”按钮建立一个选择条件,使得只有满足该条件的记录才能进行回归分析。