目录
引言:
线性回归(Linear regression)是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。其表达形式为y = +
x+ε,其中ε为误差服从均值为0的正态分布(高斯分布)。
1、什么是线性回归?
简单来说,线性回归是一种利用数理统计中的回归分析方法,用于确定两种或两种以上变量之间的相互依赖关系。它通过找到一个线性方程,以尽可能地描述和预测自变量和因变量之间的关系。线性回归所追求的目标是找到一个最佳拟合直线,使得因变量的值与自变量的值之间存在一种线性关系。这种线性关系可以用一个数学公式来表示,其中自变量和因变量之间的系数被称为权重,而截距被称为偏差。通过使用最小二乘法等优化算法,可以计算出权重和偏差的值,从而得到一个更准确的线性回归模型。
2.简单一元线性回归:
工资 | 贷款额度 |
4000 | 10000 |
8000 | 12000 |
5000 | 8000 |
3000 | 10000 |
6000 | 15000 |
7000 | ? |
在这个例子中,我们有工资和贷款额度之间的数据,我们希望了解工资对贷款额度的影响。线性回归就是假设变量之间存在一个线性关系,即我们可以通过一个直线来近似描述它们之间的关系。线性回归模型的目标是找到最佳拟合直线,使得观察到的数据点和这条直线之间的误差最小。由此我们可以给出一元线性回归模型:
y =
+
x+ε
这里的y代表贷款额度,x代表工资。下面黄色的直线就是我们拟合出来的数:y=1.5x+5000。带入问号处对应的工资值,可以得出问号处大概的贷款额度是15500。
上面我们得到了拟合出来的函数,y=1.5x+5000。那我们是怎么求出和
值的呢?
-
误差项分析
在了解怎么求解和
前,我们先来看看ε(误差项),让我们先来了解一下什么是误差项。误差项是指由于真实的数据往往存在着一些噪音和随机误差,因此我们无法通过直线完美地穿过每个数据点。误差项表示观测值与拟合直线之间的误差。并且误差项是不可省略,误差是必然产生的。并且由于产生了误差项,我们便可以基于误差的特点来进行对线性回归的参数估计的
误差项ε通常被假设为服从均值为0、方差为常数(独立同分布)的高斯分布,这是为了方便模型拟合和进行统计推断。然后使用极大似然估计(详细参考:极大似然估计推导出最小二乘法)和最小二乘法来估计最佳的回归系数,即找到使得观测数据的生成概率最大化的参数值。
-
最小二乘法
为了由样本数据得到回归参数和
的理想估计值,通常使用最小二乘法(Ordinary Least Square,OLS)法进行估计。最小二乘法的思想:寻找参数β0、β1的最优估计值。基于均方误差最小化来进行模型求解的方法,主要思想是选择未知参数使得理论值与观测值之差的平方和达到最小。在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
例如求解方程y= x+b,求解
和 b ,使得损失函数:E=
最小化的过程,称为线性回归模型的“最小二乘参数估计”。将 E分别对
和 b求导,并令偏导数等于0,可以得到:
所以得到的 和 b对应的就是β0、β1
3.小结:
上面的例子仅针对一元的情况,对于二元线性回归,我们就应该考虑有两个特征的情况,即模型为 y = β0 + β1x1 + β2x2 + ε,其中 x1 和 x2 是两个特征变量。我们可以使用最小二乘法来估计最优的回归系数 β0、β1 和 β2,使得模型的预测值与实际观测值之间的残差平方和最小化。
同理如果是多个特征,那就是多元线性回归:
y = β0 + β1x1 + β2x2 ⋯+βkxk+ ε
优缺点:
线性回归模型的优点在于模型简单、易于理解和实现,同时具有较低的计算复杂度。它可以用于多种任务,如预测房价、销售量等,也可以用于特征选择、异常检测等领域的应用。缺点在于过于简单,无法捕捉变量之间复杂的非线性关系。