引言:回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
线性回归是一种最为我们熟悉的方式,故接下来我们就来详细了解线性回归。
1. 最小二乘法原理
例如我们有一组数据,分别对应x(横坐标)与y(纵坐标)。我们试图建立x与y的等式关系,并探究x预测y的可靠性。通过绘制散点图,我们可以对该组数据拟合无数条直线,但是怎样找到最佳拟合直线呢?最小二乘法可以解决这一问题。
第一步:如下。不考虑x值,计算y值的均值b。Mean(y)=3.5。
第二步:如下。以均值形成拟合直线y=3.5,计算各数据点到y=3.5的距离的平方和,统计术语为围绕均值的平方和(sum square around mean