回归主要用于预测数值型数据,根据观测到的数据,设计一种模型描述数据之间蕴含的关系,回归的典型例子就是通过给定的数据点拟合出最优的曲线。
- 预测数值型数据
- 通过数据点拟合出最优的曲线
在这个例子中面积和房价之间的关系可以近似地表示成一根直线,因此这种模型称为线性回归,在这个模型中,只包含一个自变量x,因此,这种线性回归模型被称为一元线性回归。
一元线性回归 (Simple linear regression)
y = w x + b y = wx + b y=wx+b
模型变量: x
模型参数:
- w: 权重 (weights)
- b: 偏置值 (bias)
在一元线性回归问题中,要解决的问题就是如何根据样本数据确定模型参数w和b。
损失函数/代价函数(Loss/cost function)
模型的预测值与真实值的不一致程度
-
残差和最小
L o s s = ∑ i = 1 n ( y i − y ^ i ) = ∑ i = 1 n ( y i − ( w x i + b ) ) Loss = \sum_{i=1}^{n}{(y_i - \widehat{y}_i)} =\sum_{i=1}^{n}{(y_i - (wx_i + b))} Loss=i=1∑n(yi−y i)=i=1∑n(yi−(wxi+b)) -
残差绝对值和最小
L o s s = ∑ i = 1 n ∣ y i − y ^ i ∣ = ∑ i = 1 n ∣ y i − ( w x i + b ) ∣ Loss = \sum_{i=1}^{n}{|y_i - \widehat{y}_i|} =\sum_{i=1}^{n}{|y_i - (wx_i + b)|} Loss=i=1∑n∣yi−y i∣=i=1∑n∣yi−(wxi+b)∣ -
残差平方和最小
L o s s = 1 2 ∑ i = 1 n ( y i − y ^ i ) 2 = 1 2 ∑ i = 1 n ( y i − ( w x i + b ) ) 2 Loss = \frac{1}{2}\sum_{i=1}^{n}{(y_i - \widehat{y}_i)^2} =\frac{1}{2}\sum_{i=1}^{n}{(y_i - (wx_i + b))^2} Loss=21i=1∑n(yi−y i)2=21i=1∑n(yi−(wxi+b))2
这个函数也被称为平方损失函数(Square Loss),函数的系数 1 2 \frac{1}{2} 21是为了方便求导运算。平方损失函数不仅计算方便,而且具有很好的几何意义。其中 ( y i − y ^ i ) 2 (y_i - \widehat{y}_i)^2 (yi−y i)2可以代表样本点与估计值的欧氏距离( ( y i − y ^ i ) 2 \sqrt{(y_i - \widehat{y}_i)^2} (yi−y i)2) 的大小。
在平方损失函数的基础上除以样本数n,就是均方误差。
- 均方误差(Mean Squqre Error)
L o s s = 1 2 n ∑ i = 1 n ( y i − y ^ i ) 2 = 1 2 n ∑ i = 1 n ( y i − ( w x i + b ) ) 2 Loss = \frac{1}{2n}\sum_{i=1}^{n}{(y_i - \widehat{y}_i)^2} =\frac{1}{2n}\sum_{i=1}^{n}{(y_i - (wx_i + b))^2} Loss=2n1i=1∑n(yi−y i)2=2n1i=1∑n(yi−(wxi+b))2
均方误差经常被作为衡量误差的指标。其中基于均方误差最小化来进行模型求解的方法,称为最小二乘法(Least Square Method)。
损失函数的2个性质
- 非负性: 保证样本误差不会相互抵消
- 一致性: 损失函数的值和误差变化一致
作为损失函数。首先,它的每一个误差项应该是非负的,这样才能够保证样本误差不会相互抵消。第二,损失函数的结果应该和误差的变化趋势是一致的。但模型输出的估计值 y ^ \widehat{y} y 和样本标签y差距越大时,损失函数的值就应该越大;而当他们越接近时,函数的值就应该越小,并且不断地趋近于零,也就是说应该单调有界,并且收敛于0。
下面给出一个模型求解的过程,以残差平方和最小为例