1、概念
线性回归(一元线性回归)
二变量数据:对于每一个观察结果,二变量数据给出两个变量数值,其中一个变量收到某种方式控制,或是用来解释另一个变量,则这个变量叫做自变量或者解释变量(x),另一个变量则称为因变量或反应变量(y)。
相关性,线性:根据二变量数据,以x轴描述一个变量,y轴描述另一个变量,绘制成散点图。若图形中数据点显示出一种独特的模式,我们称这种现象为相关,此时散点显示数据对之间的相关性。如果散点图上的数据几乎呈直线分布,这相关性称之为线性。
最佳拟合线:即“最佳拟合直线”是使样本点到该直线的距离达到最小的直线(采用垂直距离)。
线性回归(一元):此处只对一元线性回归做归纳,用最小二乘回归法求最佳拟合线
① 、一元线性回归是分析只有一个自变量(自变量x和因变量y)线性相关关系的方法,此处可以理解为:线性回归法是一种求最佳拟合线 y=a+bx 的数学方法(也叫“最小二乘回归法”)。
②、 要求”y=a+bx “中斜率b的值,需要通过另一个相关的公式:
误差平方和(SSE): 该名称定义为“各个(y的实际值与 通过最佳拟合线得出的y的预测值 的差值)²的和“
SSE为最小时,便是最小拟合线,通过这个公式(推导过程省略,理解意思即可),可以得到斜率b;
因为 最佳拟合线是穿过x的平均值和y的平均值,所以将这俩个平均值代入"y=a+bx"(b已求出),便可以得到a
相关系数 r : r 是介于-1和1之间的一个数,描述的是数据与最佳拟合线的偏离距离。如果 r=-1,则为完全负线性相关;如果 r = 1 ,则为完全正线性相关;如果 r = 0,则不存在相关性(通常来说,r越接近1,表示x与y两个量之间的相关程度就越强,反之,r越接近于0,x与y两个量之间的相关程度就越弱)。
这里相关系数 分为三档 1~0.6我们定位 强相关,0.3~0.6为中等程度相关,0~0.3为弱相关,负值同样的规则划分。
决定系数R²: