回归
通常对于一组特征数据和其标记值:
,在使用特征值
对
进行预测时,根据习惯,如果
是连续的,则称这种操作或者技术为回归;如果
是离散的,则通常称为分类。
线性回归
以根据房屋的属性来预测价格为例,假设房屋的价格与房屋的面积和居室的数目有关,如下表所示;
Living area(
)
bedrooms
Prices
2104
3
400
1600
3
330
2400
3
369
1416
2
232
3000
4
540
把房屋的面积记为特征
,把居室的数目记为特征
,价格记为
。我们猜测
和
之间,满足关系:
因此我们可以建立模型:
我们也可以把上式写成向量的形式
其中,
是参数,
是我们的训练数据和检测数据中的特征值。实际上,
是未知量,我们的目标就是通过训练数据调整
,来使得输出的结果更接近真实值。
在将训练的数据中的
代入,都会得到一个输出
,这个值和真实的
之间会存在一个随机的误差
:
我们假定所有的房屋都是独立的,我们可以认为,误差的存在可能是房屋中的价格还会受到一些其他的因素的影响,而这些因素在建模的过程中没有体现,这些细枝末节可能使得房屋的价格有一些震荡。如果把这些因素看成随机变量,当足够多的随机变量叠加之后,根据中心极限定理,形成的分布就是正态分布。因此:
误差
是独立同分布的,服从均值为0,方差为某定值
的高斯分布。
我们做一些推导:
根据高斯分布: