一、如何理解线性回归
线性回归我们可以拆为两个部分来解释:“线性”、“回归”。
1、什么是回归?
回归分析是来自统计学的一个概念,它是一种预测性的建模技术,主要研究自变量和因变量之间的关系。通常使用线/曲线来拟合数据点,然后研究如何使曲线到数据点的距离差异最小。例如下图中将数据点拟合一条曲线:
回归分析的目标就是要拟合一条曲线,让数据点到拟合曲线的距离加起来的和是最小的。
2、什么是线性?
通俗举个例子,找一根线,拉一下就是线性。当然统计学中的线性关系(主要就是指因变量和自变量之间的关系)不可能像手中的线那么直,但是差不多是呈现直线关系,比如下图中的自变量和因变量就是线性的:
所以线性回归就是拟合一条直线,让数据点到拟合曲线的距离加起来的和是最小的。 所以,我们在选择线性回归前,应该先绘制散点图看一下自变量和因变量的是否有线性关系(没有线性关系,不代表没有关系,事实上非线性的关系更加常见),如果不是线性关系,也可以尝试通过因变量和自变量进行变换(最好对自变量)。
3、数学模型
简单线性回归和多元线性回归分别描述了单一自变量与因变量之间的关系,以及多个自变量与因变量之间的关系。
简单线性回归:
只有一个自变量时,线性回归模型表示为:
其中,y为因变量,x为自变量,β 0为截距,β 1 为自变量的回归系数,ϵ 为误差项。
多元线性回归:
当有多个自变量时,模型的形式为: