在数学上,变量之间的关系用确定的函数来表示是比较常见的一种方式。然而在现实应用中,还存在许多变量之间不能用确定的函数关系来表示的例子。本节将介绍变量之间存在线性相关关系的模型:线性回归模型。下面先介绍简单的一元线性回归,进而再拓展到较为复杂的多元线性回归。最后给出线性回归模型的Python实现方法。
所谓一元线性回归,就是自变量和因变量只有一个的线性相关关系模型。以下通过现实生活中的例子引入,再而谈及回归模型、拟合优度等相关概念。
1.引例:
变量之间的相互关系,主要有三种:
(1)确定的函数关系 Y=f(X)
(2)不确定的统计相关关系
(3)没有关系 不用分析
那么身高预测问题:子女的身高(Y)与父母的身高(X)就属于第2种情况,子女身高与父母身高是相关的,但并不具有确定的函数关系。
2.一元回归模型:
,其中Y因变量(随机变量),x为自变量(确定的变量),β为模型系数 。每给定一个x,得到Y的一个分布。
3.一元回归方程:
对回归模型两边取数学期望,得到回归方程如下:,每给定一个x,便有Y的一个数学期望值与之对应,他们是一个函数关系。 一般地,通过样本观测数据,可以估计出以上回归方程的参数,其一般形式为:,其中 为对期望值及两个参数的估计。
4.一元回归方程参数估计
对总体(x,Y)进行n次独立观测,获得n个样本观测数据:(x1,y1),(x2,y2),…,(xn,yn),将其绘制在图像上,如下图所示:
如何对这些观测值给出最合适的拟合直线呢?——最小二乘法,其基本思想是真实观测值与预测值(均值)总的偏差平方和最小,即
求解以上最优化问题,即得到:,其中。
5.一元回归方程拟合优度
经过前面的步骤我们获得了线性回归方程,那么这个回归方程的拟合程度如何?能不能利用这个方程进行预测?可以通过拟合优度来进行判断。在介绍拟合优度概念之前,先介绍几个概念:总离差平方和、回归平方和、残差平方和,其计算公式分别如下:
R方称为拟合优度(判定系数),值越大表明直线拟合程度越好。