本文主要介绍线性回归模型,该模型主要应用于监督学习中目标变量是连续数值型的场景。
一元线性回归模型
线性回归模型是数据科学领域最简单的模型,很多复杂的模型 (如多项式回归、逻辑回归、SVM) 都是建立在线性回归模型的基础上的,或者是从其中能找到线性回归模型的影子。最简单的线性回归模型就是一元线性回归模型,其模型的形式就是:
y = a x + b (1) y=ax+b \tag{1} y=ax+b(1)
由式(1)可知,线性回归是针对连续数值型变量的模型,且样本只有一个特征,即只有一个自变量。所谓线性,是指方程是线性的,也就是在寻找一条直线来拟合数据;所谓回归,是指用方程来模拟变量之间是如何关联的。线性回归就是要找一条直线,并且让这条直线尽可能地拟合训练样本中的数据点。
虽然我们可以找到一条拟合训练集的直线,但是同一训练样本可以拟合出很多条直线,我们如何判断那条直线是最适合的?这就引出了如何评价模型结果的好坏,又通过什么样的方式来判断?接下来我们通过损失函数来了解线性回归的评价标准。
损失函数
为了衡量模型的效果,很自然的就会想到衡量预测值与真实值之间的差别。假设预测值为f(x),真实值为y,样本的数量为n,那么就有:
∑ i = 1 n ( f ( x i ) − y i ) 2 (2) \sum_{i=1}^n(f(x_i)-y_i)^2 \tag{2} i=1∑n(f(xi)