5多变量线性回归
这一节我们将介绍一种更加有效的线性回归形式,它适用于多变量、多特征的情况。在我们之前学习过的线性回归中,只有一个单一的特征变量,房子的面积大小,我们希望用这个特征量来预测房子的价格。现在想想一下,我们不止有房子的面积大小,还有卧室的数量、楼层数量、房子的使用年限,这样就给了我们许多信息来预测房子的价格。
前面我们已经介绍过,我们会使用x1,x2,x3,x4分别表示这种情况下的四个特征量,仍然使用y来表示我们想要预测的输出变量。如下图所示,让我们来看看更多的表示方式,现在我们有四个特征量,我们使用
n 表示特征数量,这里的n和我们之前讲到的m不同,m表示的是样本的数量。
x(i) 表示第i个训练样本的所有输入特征量。举个例子来说,x(2) 表示第2个训练样本的特征向量,也就是我们用来预测房子价格的四个特征量组成的向量(参考图中,粉红色),2对应着表格中的第二个训练样本,并不是二次方。
x(i)j 表示第i个训练样本的第j个特征量。
既然我们有了这么多的特征变量,现在我们讨论一下,我们的假设函数一个是怎么样的???我们之前使用过的假设函数只有一个特征变量x,但是我们现在有了多个特征变量,我们就不能使用之前那种简单的形式来表示假设函数了。我们将假设函数改写为如下的形式:
别忘了,假设函数是为了预测房子的价格。房子的价格随着房子的面积x1、卧室的数量x2、房子的楼层数x3、房子使用年限x4的增加而增加。
接下来,我们需要简化假设函数的形式。为了表示方便,我们设定x0=1,这就意味着,对于每一个样本i都有一个特征向量,你可以认为我们定义了一个而外的第0个特征量。如下图所示,将参数和特征向量都表示成向量的形式,这样我们就能将我们的假设函数简化θ矩阵的转置乘上特征变量X矩阵。这就是多特征变量情况下的假设函数,起另一个名字就是所谓的多元线性回归。